딥러닝관련/기초 이론43 Transformer 정리 2021.11.08 - [딥러닝관련/기초 이론] - seq2seq, attention 정리 seq2seq, attention 정리 최근에 transformer 관련된 이야기가 많이 나와 한 번 정리해보고자 한다. Transformer를 알기 위해서는 그 전에 Attention 메커니즘이 무엇인지 알아야 한다. (computer vision 관련 분야가 메인인데 자연어까 better-tomorrow.tistory.com 위 글에 이어 transformer를 정리해보고자 한다. (내가 아는 트랜스포머는 마이클베이의 트랜스포....) Transformer가 나온 논문은 아래와 같다고 한다. https://arxiv.org/abs/1706.03762 Attention Is All You Need The domi.. 2021. 11. 9. seq2seq, attention 정리 최근에 transformer 관련된 이야기가 많이 나와 한 번 정리해보고자 한다. Transformer를 알기 위해서는 그 전에 Attention 메커니즘이 무엇인지 알아야 한다. (computer vision 관련 분야가 메인인데 자연어까지 봐야하다니.. 세상에 공부해야 할 것들이 너무 많다) Attention을 보기 전에 sequence-to-sequence(seq2seq)를 봐야 한다. (seq2seq -> attention -> transformer 이렇게 발전되어 오는 듯 하다) Sequence-to-Sequence 번역기에서 대표적으로 사용된다고 함. seq2seq 모델 기반 번역기가 있다고 해보자. 그 번역기는 I am a student 문장 입력으로부터 프랑스어로 번역한 결과가 나온다. 위.. 2021. 11. 8. 선형(linear) vs 비선형(non-linear) 공부하다가 선형 비선형 얘기가 자주 나와 어렴풋이 알고 있던 걸 정리해보고자 한다. 이름에서도 알 수 있듯이 line 즉, 선형적이라는 것은 선과 관련 있다. 이는 직선처럼 똑바른 도형, 또는 그와 비슷한 성질을 갖는 대상을 뜻한다. 이러한 성질을 갖고 있는 변환에 대하여 쓰는 용어 함수의 경우, 어떠한 함수가 진행하는 모양이 '직선'이라는 의미로도 사용. 선형은 어느 정도 예측이 가능 선형성(linearity)에 대한 정의는 다음와 같음 ex), 1차 함수의 경우 --> 원점을 지날 경우에 선형성을 가진다. f(x) = 2x라고 가정하면 f(1+2) = f(1) + f(2) = 6이 성립하지만 f(x) = 2x + 1 이라고 가정하면 f(1) + f(2) = 8 f(3) = .. 2021. 11. 5. Squeeze-and-Excitation Networks(SENET) Relationship between channels [Convolution operator] 각 layer의 receptive field 내에서 spatial 및 channel-wise 정보를 융합하여 네트워크가 유익한 feature를 구성하도록 함 - SENET 중점 포인트- 1. channel과의 관계에 초점을 맞추고, (기존 연구들은 spatial component에 중점이 맞춰 연구되었었음) 2. channel 간의 interdependencies를 명시적으로 모델링하여 channel-wise feature response을 adaptively recalibrates하는 "Squeeze-and-Excitation(SE)" block 이라는 새로운 아키텍쳐 단위 제안. Computer Vision.. 2021. 10. 19. 이전 1 2 3 4 5 6 7 ··· 11 다음