Language Model 11

DeepSeek-V3

DeepSeek-V3 요약Open Source Model Architecture : Mixture-of-Experts(MoE) 구조Parameter:total : 6,710억개activated per token: 370억개Speed: 초당 약 60개의 토큰을 처리할 수 있어 이전 버전(DeepSeek-V2)보다 3배 빨라졌다고 한다.Specialized task: 교육, 코딩, 수학적 추론ArchitectureDeepSeek 모델도 Transformer Decoder 구조를 기반으로 하지만 여기에 몇 가지 설계적 요소를 추가하여 성능을 향상시켰다.Multi-head Latent Attention (MLA)기존 transformer attenetion mechanism을 개선한 attention으로, 이 ..

Entropix : Entropy Based Sampling and Parallel CoT Decoding

🟢 Entropix최근 많이 사용되는 LLM들은 문맥에 맞는 일관된 텍스트를 잘 생성하지만 복잡한 추론이 필요한 작업에 대한 hallucination 및 shallow reasoning 문제가 있다. 즉, 복잡한 추론이 요구되는 문제에 대해 잘못된 정보를 말하거나 얕은 추론만 하는 문제가 있다. 이와 같은 문제를 해결하기 위해 최근에는 entropy 기반 sampling이 많이 연구 되고 있다. entropy 기반 sampling은 decoding 과정에서 entropy를 측정하여 모델이 불확실하게 생성하는 부분을 잘 파악하고 모델이 token을 보다 효과적으로 선택하도록 하는 방법론이다.Entropix는 모델의 entropy와 varentropy(variance of entropy)를 통합하여 모델이..

Speculative Decoding : 추론 속도 향상 방법

최근 일반적으로 사용되는 LLM들은 Auto-regressive model로, Transformers Decoder 구조를 기반으로 한다. Auto-regressive model은 새로운 token을 순차적으로 생성한다. 즉, 여러 token이 병렬적으로 예측되지 않는다. 현재 time step의 token이 있어야 그 다음 token을 예측하니까 당연한 이야기이다. 이러한 이유로 output token이 길 수록 생성 속도가 매우 느려진다는 문제가 있다. 이러한 문제를 해결하고자 Speculative Decoding이 제안되었다.1. Operating ProcessSpeculative Decoding은 main model과 그에 비해 비교적 작은 size의 assistant model(draft mod..

Semantic Entropy : LLM Hallucination Detectiond에 대한 두 논문 정리

[1st Paper] Detecting hallucinations in large language models using semantic entropy본 논문에서는 entropy-based uncertainty estimators를 통해 model이 hallucination을 얼마나 반환하는 model인지 감지하는 방법을 제안한다.이때 불확실성은 의미 수준에서 계산되어야 한다. 서로 다른 token sequence도 동일한 의미를 갖는 경우가 있기 때문에 출력된 token 수준에서 불확실성을 계산하는 것은 적합하지 않다. 예를 들어 "Paris", "It's Paris", "The capital of France is Paris"라는 답변은 모두 동일한 의미를 내포하는데 이를 고려하지 않는다면 이 세 문..

LLaMa 3.1 알아보자

1. LLaMa 3.1405B, 70B, 8B 버전이 공개되었다.INT8, FP8로 양자화 버전 공개context length를 128K로 확장, 8개 언어를 지원(Guard model)Llama 3.1 405B는 최초 frontier-level open source. 지금까지 open source LLM은 closed source LLM에 비해 성능이 좋지 않았지만 LLaMa 3.1 405B는 closed source model에 견줄만한 성능을 보인다.reference system을 포함하고 있다.이번 release에서는 8B와 70B model의 upgrad가 있다. 두 모델은 multilingual을 지원하며, context length가 128K로 크게 증가했다. 또한 state-of-the-a..

Merge algorithms: MoE, MoA

MoE(Mixtures of Experts)MoE는 모든 네트워크가 활성화되는 dense model과는 달리 "experts"라고 불리는 여러 specialized subnetwork를 사용하여 입력에 따라 관련된 expert만 활성화시켜 학습과 추론을 떠 빠르고 효율적으로 만든다.MoE는 Mixtral-8x7B이 공개되며 크게 주목 받았다. Mixtral-8x7B은 MoE를 사용하여 당시 가장 높은 성능을 보인 모델이다. GPT-4도 MoE가 적용되었을 가능성이 있다는 소문이 있는데, 이는 dense model에 비해 OpenAI가 GPT-4를 저렴하게 운영할 수 있게 하기 때문이다. (여러 특수 모델들을 Merge 시키면 되니까 큰 모델을 한번에 학습하지 않아도 됨.)Core ComponentMoE ..

Merge algorithms: SLERP, TIES, DARE, etc.

Model merging 기법은 여러 모델을 하나의 모델로 결합하는 기술이다. 최근 open llm leaderboard에도 많은 merge model들이 올라오고 있다. Mergekit 혹은 LazyMergekit을 통해 간편히 Model merge를 할 수 있다.모델 구조 자체에 변경이 없는 방법은 기존 모델의 성능정도는 기본적으로 유지가 되지만 변경이 있는 방법은 잘 조합해야 잘 나왔다.1. Task Vector Arithmetic모델 구조 변경 x"task vectors"라는 것을 통해 신경망의 동작을 변형/수정하는 방법이다. task vectors는 pre-trained model의 weight space에서 특정 task의 성능 향상을 가리키는 방향이다. 이 기법에서는 부정(negation) ..

Key-Value caching : LM 추론 속도 향상

LLM이 널리 사용되며 빠른 응답에 대한 필요성도 커져 LLM의 생성 속도를 향상시키기 위한 다양한 시도가 이루어지고 있다. Key-Value(KV) Caching은 그런한 방법론들 중 하나이다.Key-Value(KV) Caching을 간략이 설명하면 transformers모델이 attention연산을 수행할 때 사용하는 key와 value값들을 저장해 주는 기법이다. 이전에 계산했던 결과를 재사용하여 불필요한 연산을 줄이는 것이다. 예를 들어 LLM 기반 채팅에서 사용자가 "안녕"이라고 입력했을 때 모델이 이 입력을 처리할 때 생성한 key-value값을 cache에 저장하여 사용자가 추가 메세지를 보낼 때 이전에 저장해 둔 key-value값을 재활용하여 생성 소요 시간을 줄이는 것이다."She po..

Mistral 7B (2023)

Mistral 7B abstract1. Model Size:73억 개의 파라미터를 가진 언어 모델2. Performance Comparison:모든 benchmark에서 LLaMa2 13B보다 우수한 성능을 보임. 다수의 benchmark에서 LLaMa1 34B보다 우수한 성능을 보임. CodeLLaMa 7B와 유사한 코드 퍼포먼스를 내면서 영어 task 처리 성능을 유지.3. Architectural Features:Grouped-Query Attention (GQA)빠른 추론을 위해 Grouped-query attention (GQA)를 사용. (LLaMa2에도 사용되었다.)Sliding Window Attention (SWA)더 낮은 계산 비용으로 더 긴 시퀀스를 처리하기 위해 Sliding Win..

LLM 구조 기본 개념 정리

Decoder architecture는 최근 각광 받고 있는 LLM의 backbone으로 사용되고 있다. 본 포스트에서는 LLM의 기반 모델로 Decoder model이 많이 사용되는 이유를 간략하게 설명하고, 해당 설명을 위해 Transformers와 Transformers로부터 파생된 Model 구조에 대해 소개한다.Transformers 요약Transformers모델은 크게 Encoder와 Decoder로 구성되어 있다.Encoder and DecoderEncoderinput를 representation을 변환하는 부분. 자연어의 의미를 vector space의 representation으로 변환하는 부분이다. 즉, contextualized embedding으로 input을 변환시킨다.input으..