2021.11.16 - [딥러닝관련/자연어처리] - Transformer Decoder : Encoder-Decoder Attention
Transformer Decoder : Encoder-Decoder Attention
2021.11.15 - [딥러닝관련/자연어처리] - Transformer Decoder : Masked Self Attention Transformer Decoder : Masked Self Attention 2021.11.15 - [딥러닝관련/자연어처리] - 포지션-와이즈 피드 포워드 신경망..
better-tomorrow.tistory.com
Transformer 정리를 위해 위 글에서 계속 이어짐
이제 마지막 Dense softmax layer를 봐보자

출처 : https://wikidocs.net/images/page/31379/transformer_from_encoder_to_decoder.PNG
모든 encoder와 decoder block을 거친 vector는 최상단 layer인
linear와 softmax layer를 차례대로 거친다.
Linear layer
단순한 fully connected layer
마지막 decoder block의 output vector를 logit vector로 변환
softmax layer
Linear에서 생선된 logit vector를 각 token이 위치할 확률로 바꿔줌 (아래 이미지 참고)

참조
1) 트랜스포머(Transformer)
* 이번 챕터는 앞서 설명한 어텐션 메커니즘 챕터에 대한 사전 이해가 필요합니다. 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인
wikidocs.net
https://yngie-c.github.io/nlp/2020/07/01/nlp_transformer/
트랜스포머 (Transformer) · Data Science
2013년 Word2Vec이 발표된 후 GloVe, Fasttext 등이 등장하면서 단어 수준의 임베딩에 대한 방법론이 어느 정도 마무리 되었습니다. 그 뒤로는 문장 수준의 임베딩을 위한 방법론들이 등장하게 됩니다.
yngie-c.github.io
'딥러닝관련 > 자연어처리' 카테고리의 다른 글
자연어 처리란 (0) | 2021.12.15 |
---|---|
Transformer Decoder : Encoder-Decoder Attention (0) | 2021.11.16 |
Word2Vec (0) | 2020.07.20 |
StackGAN 논문 리뷰(작성 중) (0) | 2020.07.16 |
Word Embedding (0) | 2020.07.13 |