Transformer based Pre-trained Language Model
1. BERT(Encoder만 존재)
- BERT-base: 12 encoder layers, 12 attention heads, feature dimension (|word embedding vector|=768)
- BERT-large: 24 encoder layers, 16 attention heads, feature dimension (|word embedding vector|=1024)
- Training Objective: Masked Language Modeling, Next Sentence Prediction
2. GPT(Decoder만 존재)
- 12-layer decoder only model
3. BART(Encoder, Decoder 둘 다 존재)
- BART-base: encoder layers, 6 decoder layers (768 dimension), ~139M parameters
- BART-large: 2 encoder layers, 12 decoder layers (1024 dimension), ~406M parameters
- Training Objective: Reconstruct corrupted input sequences
여기서 잠깐,, RNN은 Sequential processing을 하고, Transformer는 Parallel Processing을 한다.
Transfomer (implementation)
Positional Encoding(PE): 입력 시퀀스의 각 단어에 위치 정보를 추가하기 위해 사용된다. 이는 Transformer가 순서에 대한 정보를 내재적으로 알 수 없기 때문이다.

- pos: 현재 단어의 위치 (0부터 시작).
- d model: 임베딩 벡터의 차원 크기 (예: 512).
- i: 벡터 내 특정 차원 (0부터 d−1까지).
- 10000^(2i/d): 위치 정보를 다양한 주기로 변환하는 스케일링.
Encoder-Decoder
- Encoder: 여러 layer의 Self-Attention과 Feed-Foward networks.
- Decoder: Decoder도 마찬가지로 둘다 포함하고 있다.
'AI' 카테고리의 다른 글
| [NLP] Chatbot and NLU (0) | 2025.04.17 |
|---|---|
| [NLP] 시작 (5) | 2025.04.16 |
| Seq2Seq Text Generation (0) | 2024.12.13 |
| Language Model (0) | 2024.11.29 |
| Linear Classifier, Loss Func, Softmax Func, Optimization (0) | 2024.11.04 |