본문 바로가기

AI

Transformer

Transformer based Pre-trained Language Model

1. BERT(Encoder만 존재)

  • BERT-base: 12 encoder layers, 12 attention heads, feature dimension (|word embedding vector|=768)
  • BERT-large: 24 encoder layers, 16 attention heads, feature dimension (|word embedding vector|=1024)
  • Training Objective: Masked Language Modeling,  Next Sentence Prediction

2. GPT(Decoder만 존재)

  • 12-layer decoder only model

3. BART(Encoder, Decoder 둘 다 존재)

  • BART-base:  encoder layers, 6 decoder layers (768 dimension), ~139M parameters
  • BART-large: 2 encoder layers, 12 decoder layers (1024 dimension), ~406M parameters
  • Training Objective: Reconstruct corrupted input sequences

여기서 잠깐,, RNN은 Sequential processing을 하고, Transformer는 Parallel Processing을 한다.

 


Transfomer (implementation)

Positional Encoding(PE): 입력 시퀀스의 각 단어에 위치 정보를 추가하기 위해 사용된다. 이는 Transformer가 순서에 대한 정보를 내재적으로 알 수 없기 때문이다.

짝수 차원에는 사인, 홀수 차원에는 코사인이 적용되어 차원을 따라 고유한 패턴이 만들어진다.

  1. pos: 현재 단어의 위치 (0부터 시작).
  2. d model: 임베딩 벡터의 차원 크기 (예: 512).
  3. i: 벡터 내 특정 차원 (0부터 d−1까지).
  4. 10000^(2i/d): 위치 정보를 다양한 주기로 변환하는 스케일링.

Encoder-Decoder

  • Encoder: 여러 layer의 Self-Attention과 Feed-Foward networks.
  • Decoder: Decoder도 마찬가지로 둘다 포함하고 있다.

'AI' 카테고리의 다른 글

[NLP] Chatbot and NLU  (0) 2025.04.17
[NLP] 시작  (5) 2025.04.16
Seq2Seq Text Generation  (0) 2024.12.13
Language Model  (0) 2024.11.29
Linear Classifier, Loss Func, Softmax Func, Optimization  (0) 2024.11.04