전체 글 30

Agent가 뭘까 : AI Agents, Agentic AI, Multi-Agent

AI Agent vs. Agentic AIAI AgentAI Agent는 특정 task를 수행하는 agent이다. AI Agent는 단순하고 반복적인 작업을 자동화하는 데에 적합하지만 자율적인 의사 결정 능력은 없다. 스스로 생각하지 않고 사용자가 지시한 것을 수행하는 가상 도우미 정도의 역할을 할 수 있다. Agentic AIAgentic AI는 "자율성"에 큰 의의를 두는 인공지능 기반 시스템이라고 볼 수 있다. 특정 목표를 달성하기 위해 스스로 결정을 내리고, 행동을 취하고, 더 나아가 독립적으로 학습할 수 있다는 시스템이다. 인간의 지속적인 지시 없이도 생각하고, 추론하며, 변화하는 상황에 적응할 수 있는 가상 비서처럼 작동하는 것이다. Agentic AI는 아래 네 가지 단계로 작동한다:인식(..

DeepSeek-V3

DeepSeek-V3 요약Open Source Model Architecture : Mixture-of-Experts(MoE) 구조Parameter:total : 6,710억개activated per token: 370억개Speed: 초당 약 60개의 토큰을 처리할 수 있어 이전 버전(DeepSeek-V2)보다 3배 빨라졌다고 한다.Specialized task: 교육, 코딩, 수학적 추론ArchitectureDeepSeek 모델도 Transformer Decoder 구조를 기반으로 하지만 여기에 몇 가지 설계적 요소를 추가하여 성능을 향상시켰다.Multi-head Latent Attention (MLA)기존 transformer attenetion mechanism을 개선한 attention으로, 이 ..

Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception

최근 LLM이 답변할 때 외부 지식을 참고하여 더 정확한 답변을 생성하도록 하는 RAG 기법이 많이 사용되고 있다. 쉽게 말하자면 RAG은 챗봇이 사용자의 질문에 답할 때 관련 문서들을 찾아보고 답하는 것이다. 이때 참조할 문서는 일정 길이의 chunk로 나뉘어 있는데 이 chunk를 나눌 때 서로 연관된 내용이 분리되거나 불필요한 내용이 포함될 경우, RAG의 결과가 좋지 않은 문제가 있다. 이와 같은 문제를 해결하고자 제안된 방법이 Meta-Chunking이다. Meta-Chunking은 문장들 간의 논리적 연결성을 고려하여 더 의미있는 단위로 문서를 분할하는 방법론이다. Meta-Chunking의 전략은 크게 두 가지이다.1) Margin Sampling ChunkingLLM이 연속된 문장들을 분리..

RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation (RAG 속도 향상 방법)

본 논문은 베이징 대학교와 ByteDance가 효율적인 RAG 수행을 위해 연구한 내용을 담고 있다. 최근 LLM 추론 시간 자체에 대한 가속화 연구가 많이 진행되고 있다(vLLM, SGLang ...). RAG 작동 효율 향상을 위해 LLM 추론 자체가 빠른 것도 도움되지만 RAG 시스템 특성을 적절히 고려한 최적화도 필요하다.RAG 시스템에서 보이는 주요한 문제는 아래와 같다:1. Performance BottleneckRAG의 retirieval 단계는 일반적으로 millisecond 단위로 매우 빠르게 처리된다.문제는 generation 단계이다. 검색된 문서가 input에 추가되면서 추론 시 계산 비용과 메모리 사용량이 증가한다.LLM 추론은 크게 두 단계로 진행된다: 1) prefill 단계..

Generative Agents: Interactive Simulacra of Human Behavior

https://arxiv.org/pdf/2304.03442Generative Agent최근 LLM을 통한 generative AI의 발전으로 single point에서의 인간 행동 시뮬레이션에는 많은 진전이 있었지만, 장기간에 걸친 복잡한 상호작용을 시뮬레이션하는 연구는 많이 진행되지 않았다. 본 논문은 Google과 Stanford University가 공동 연구한 논문으로, 복잡한 task에서 인간의 행동을 시뮬레이션할 수 있는 generative agent를 주제로 한다.Google-Stanford team은 독립적으로 작동하는 또 다른 LLM을 구축하는 것과 달리, 환경과 능동적으로 상호작용하는 generative agent 개발에 집중했다. 여기에서 generative agent란, 자신과 다른..

Entropix : Entropy Based Sampling and Parallel CoT Decoding

🟢 Entropix최근 많이 사용되는 LLM들은 문맥에 맞는 일관된 텍스트를 잘 생성하지만 복잡한 추론이 필요한 작업에 대한 hallucination 및 shallow reasoning 문제가 있다. 즉, 복잡한 추론이 요구되는 문제에 대해 잘못된 정보를 말하거나 얕은 추론만 하는 문제가 있다. 이와 같은 문제를 해결하기 위해 최근에는 entropy 기반 sampling이 많이 연구 되고 있다. entropy 기반 sampling은 decoding 과정에서 entropy를 측정하여 모델이 불확실하게 생성하는 부분을 잘 파악하고 모델이 token을 보다 효과적으로 선택하도록 하는 방법론이다.Entropix는 모델의 entropy와 varentropy(variance of entropy)를 통합하여 모델이..

Speculative Decoding : 추론 속도 향상 방법

최근 일반적으로 사용되는 LLM들은 Auto-regressive model로, Transformers Decoder 구조를 기반으로 한다. Auto-regressive model은 새로운 token을 순차적으로 생성한다. 즉, 여러 token이 병렬적으로 예측되지 않는다. 현재 time step의 token이 있어야 그 다음 token을 예측하니까 당연한 이야기이다. 이러한 이유로 output token이 길 수록 생성 속도가 매우 느려진다는 문제가 있다. 이러한 문제를 해결하고자 Speculative Decoding이 제안되었다.1. Operating ProcessSpeculative Decoding은 main model과 그에 비해 비교적 작은 size의 assistant model(draft mod..

Vision 모델에서의 Attention 알아보자: Self-Attention vs. Cross-Attention

computer vision에서 attention mechanism이 어떻게 작동되는지 알아보자.attention mechanism은 모델이 시각적 정보를 처리하는 방식을 크게 개선하여 vistion 분야에서 매우 크게 관심 받고 있는 mechanism이다.Attention mechanism 모델이 입력데이터 내의 각 부분에 중요도를 다르게 부여할 수 있는 mechanism이다. 이는 입력 데이터의 모든 부분에 동등한 가중치를 부여하는 방식과 달리 주어진 task를 수행하기 위해 더 중요한 부분에 더 집중할 수 있게 한다.Self-Attention입력된 데이터의 각 부분들 간의 관계를 계산하는 mechanism"self"라는 단어에서 알 수 있듯이 입력 데이터 하나 안에서만 관계를 파악한다.text를 처..

Semantic Entropy : LLM Hallucination Detectiond에 대한 두 논문 정리

[1st Paper] Detecting hallucinations in large language models using semantic entropy본 논문에서는 entropy-based uncertainty estimators를 통해 model이 hallucination을 얼마나 반환하는 model인지 감지하는 방법을 제안한다.이때 불확실성은 의미 수준에서 계산되어야 한다. 서로 다른 token sequence도 동일한 의미를 갖는 경우가 있기 때문에 출력된 token 수준에서 불확실성을 계산하는 것은 적합하지 않다. 예를 들어 "Paris", "It's Paris", "The capital of France is Paris"라는 답변은 모두 동일한 의미를 내포하는데 이를 고려하지 않는다면 이 세 문..

LLaMa 3.1 알아보자

1. LLaMa 3.1405B, 70B, 8B 버전이 공개되었다.INT8, FP8로 양자화 버전 공개context length를 128K로 확장, 8개 언어를 지원(Guard model)Llama 3.1 405B는 최초 frontier-level open source. 지금까지 open source LLM은 closed source LLM에 비해 성능이 좋지 않았지만 LLaMa 3.1 405B는 closed source model에 견줄만한 성능을 보인다.reference system을 포함하고 있다.이번 release에서는 8B와 70B model의 upgrad가 있다. 두 모델은 multilingual을 지원하며, context length가 128K로 크게 증가했다. 또한 state-of-the-a..