Transformer

1. BERT(Encoder만 존재)

BERT-base: 12 encoder layers, 12 attention heads, feature dimension (|word embedding vector|=768)
BERT-large: 24 encoder layers, 16 attention heads, feature dimension (|word embedding vector|=1024)
Training Objective: Masked Language Modeling, Next Sentence Prediction

2. GPT(Decoder만 존재)

3. BART(Encoder, Decoder 둘 다 존재)

BART-base: encoder layers, 6 decoder layers (768 dimension), ~139M parameters
BART-large: 2 encoder layers, 12 decoder layers (1024 dimension), ~406M parameters
Training Objective: Reconstruct corrupted input sequences

여기서 잠깐,, RNN은 Sequential processing을 하고, Transformer는 Parallel Processing을 한다.

Positional Encoding(PE): 입력 시퀀스의 각 단어에 위치 정보를 추가하기 위해 사용된다. 이는 Transformer가 순서에 대한 정보를 내재적으로 알 수 없기 때문이다.

Encoder-Decoder

[NLP] Chatbot and NLU (0)	2025.04.17
[NLP] 시작 (5)	2025.04.16
Seq2Seq Text Generation (0)	2024.12.13
Language Model (0)	2024.11.29
Linear Classifier, Loss Func, Softmax Func, Optimization (0)	2024.11.04

무능하면 열정도 민폐다.