본문 바로가기

Naked Code

논문 분석1

Transformer를 가장 쉽게 설명한 글 1탄 아래의 글은 Jinsol Kim 님의 블로그 글을 보고 정리한 글입니다. 참조: https://gaussian37.github.io/dl-concept-transformer/ 참조: https://jalammar.github.io/illustrated-transformer/ 1. Transformer 특징 번역 task에서 RNN과 CNN을 쓰지 않고 Attention과 Fully Connected Layer와 같은 기본 연산만을 이용하여 SOTA 성능을 이끌어낸 연구로 유명 (기존 연구의 문제점): 하나의 문맥 벡터에 문장의 모든 정보를 함축시켜야 하기 때문에 성능이 저하 (해결 방안): 모델이 학습될 때마다 문장의 전부를 입력으로 받으면 어떨까? → 하나의 벡터에 저장하지 말고 출력된 단어들을 별도의.. 2023. 7. 12.

이전 1 다음

티스토리툴바