본문 바로가기
딥러닝관련/자연어처리

Transformer Decoder : Linear & Softmax Layer

by 머리올리자 2021. 11. 16.

2021.11.16 - [딥러닝관련/자연어처리] - Transformer Decoder : Encoder-Decoder Attention

 

Transformer Decoder : Encoder-Decoder Attention

2021.11.15 - [딥러닝관련/자연어처리] - Transformer Decoder : Masked Self Attention Transformer Decoder : Masked Self Attention 2021.11.15 - [딥러닝관련/자연어처리] - 포지션-와이즈 피드 포워드 신경망..

better-tomorrow.tistory.com

Transformer 정리를 위해 위 글에서 계속 이어짐

 

이제 마지막 Dense softmax layer를 봐보자

출처 : https://wikidocs.net/images/page/31379/transformer_from_encoder_to_decoder.PNG

 

모든 encoder와 decoder block을 거친 vector는 최상단 layer인

 

linear와 softmax layer를 차례대로 거친다.

 

Linear layer

단순한 fully connected layer

마지막 decoder block의 output vector를 logit vector로 변환

 

softmax layer

Linear에서 생선된 logit vector를 각 token이 위치할 확률로 바꿔줌 (아래 이미지 참고)

 

출처 : http://jalammar.github.io/images/t/transformer_decoder_output_softmax.png

 

참조

https://wikidocs.net/31379

 

1) 트랜스포머(Transformer)

* 이번 챕터는 앞서 설명한 어텐션 메커니즘 챕터에 대한 사전 이해가 필요합니다. 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인

wikidocs.net

https://yngie-c.github.io/nlp/2020/07/01/nlp_transformer/

 

트랜스포머 (Transformer) · Data Science

2013년 Word2Vec이 발표된 후 GloVe, Fasttext 등이 등장하면서 단어 수준의 임베딩에 대한 방법론이 어느 정도 마무리 되었습니다. 그 뒤로는 문장 수준의 임베딩을 위한 방법론들이 등장하게 됩니다.

yngie-c.github.io

 

'딥러닝관련 > 자연어처리' 카테고리의 다른 글

자연어 처리란  (0) 2021.12.15
Transformer Decoder : Encoder-Decoder Attention  (0) 2021.11.16
Word2Vec  (0) 2020.07.20
StackGAN 논문 리뷰(작성 중)  (0) 2020.07.16
Word Embedding  (0) 2020.07.13