느슨해진 attention에 긴장감을 주는 attention 복습 포스트입니다. Transformer and Self-AttentionTransformer 기본 구성 요소관련 포스트: https://dasarchiv.tistory.com/entry/llm-architectureTransformer는 2017년 발표된 "Attention Is All You Need" 논문에서 발표되었다. 최근 GPT 계열의 LLM들은 대부분 Transformer의 decoder 구조를 기반으로 하고 있다. Tokenizer: 입력 text를 token 단위로 나눔Embedding Layer: token을 vector로 변환dropout, layer normalization, feed-forward: 기본 신경망 layer..