Multi Modal 5

Vision 모델에서의 Attention 알아보자: Self-Attention vs. Cross-Attention

computer vision에서 attention mechanism이 어떻게 작동되는지 알아보자.attention mechanism은 모델이 시각적 정보를 처리하는 방식을 크게 개선하여 vistion 분야에서 매우 크게 관심 받고 있는 mechanism이다.Attention mechanism 모델이 입력데이터 내의 각 부분에 중요도를 다르게 부여할 수 있는 mechanism이다. 이는 입력 데이터의 모든 부분에 동등한 가중치를 부여하는 방식과 달리 주어진 task를 수행하기 위해 더 중요한 부분에 더 집중할 수 있게 한다.Self-Attention입력된 데이터의 각 부분들 간의 관계를 계산하는 mechanism"self"라는 단어에서 알 수 있듯이 입력 데이터 하나 안에서만 관계를 파악한다.text를 처..

Vision Language Model 기본 구조, Fusion Methods

Vision Language Model(VLM)은 visual data와 text data를 동시에 학습하여 두 modality 정보를 모두 활용할 수 있는 모델이다. VLM의 종류는 다양하지만 image와 text를 입력 받아 text 생성하는 모델이 가장 일반적이다. 이와 같은 모델은 vision model과 language model을 융합(fusion)시켜 만들어진다. 이때 융합(fusion)은 모델이 visual 정보와 그에 해당하는 text 정보를 입력 받아 두 modality의 정보를 연관/연동 시키는 방법을 학습함으로써 이루어질 수 있다.Edited by author Vision Language Model에는 one-size-fits-all architecture가 딱히 없다. vision..

Vision Language Model task 유형

Vision Language Model은 이미지와 텍스트를 입력받아 두 데이터를 이애하여 특정 task를 수행하는 모델이다. Vision Language Model이 수행하는 task의 종류는 매우 다양하다. Vision Language Model의 task를 정리하는 이유는 task에 따른 input과 output에 의해 model의 구조가 달라지기 때문이다.1. Generation Task1.1 Visual Question AnsweringIllustrated by the author image (혹은 video)와 해당 image에 대한 질문을 text로 입력받아 text로 질문에 대한 답을 반환하는 task.예를 들어 아래 그림에 대해 "저 꽃은 무슨 색인가요?"라는 질문을 하고 "주황색"이라는 ..

LLaVA : Visual Instruction Tuning

1. Introductionmachine-generated instruction-following data를 사용하여 LLM을 instruction tuning하는 것이 새로운 task에 대한 zero-shot 성능을 향상시킨 다는 점은 이미 여러 연구를 통해 입증되었지만 이를 multimodal task에 적용하는 연구는 2023년 12월 11일 기준 아직 활발히 연구되고 있지 않다. 본 논문은 language-only GPT-4를 통해 multimodal language-image instruction-following data를 생성하고 이를 통해 instruction tuning을 진행하는 방법론을 제안한다. 이와 같이 생성된 모델을 LLaVA(Large Language and Vision As..

Multimodal Learning with Transformers : A Survey

1. Introduction인공지능은 인간의 지각 능력을 모방한 것이다. 일반적으로 modality는 특정한 센서를 통해 생성된 vison과 language와 같은 unique communication channel을 지칭한다. 인간은 세상과 상호작용할 때 다양한 modality 정보를 적절히 활용한다. 각 modality는 각각 다른 informationo source로 표현된다. 예를 들어 이미지는 수천개의 pixel을 통해 시각적으로 표현되고, 텍스트는 이산적인 단어들을 통해 표현된다. 인공지능 multimodal 구현을 위해서는 인간이 처리하는 각 modality 표현들과 유사한 정보를 데이터로 사용하고 각 정보들을 연결해야 한다.본 논문은 Transformer를 이용한 Multimdoal Lea..