
제로샷 성능 향상 )
오늘 날씨가 정말 좋아서 기분이 좋다."machine-generated instruction-following data를 사용하여 대형 언어 모델(LLMs)을 Instruction tuning하면 
언어 전용 GPT-4를 사용하여, 멀티모달 언어-이미지 instruction-following(tuning) 데이터를 생성하려는 첫 시도를 제시시각 인코더(CLIP)와 언어 모델(Vicuna 언어 디코더)을 결합하여 시각적 및 언어적 지시를 따름 이미지(Xv)-caption_text(Xc) pair(image captioning dataset)을 이용해서, instruction following dataset 생성하기Text prompt for question (Xq)
Text prompt for question (Xq): 
conversation / detailed description / complex reasoning 등을 전부 포함한)의 데이터가 추가로 필요!
language-only GPT4를 이용하여 고퀄리티 instruction-following dataset을 생성이미지에 대한 여러 캡션이 있는 데이터셋을 활용하여 -> Language-only GPT4가 데이터를 생성하도록 해보자.이미지를 text형태의 설명으로 대체하여 넣어줍니다.image에 대한 여러 captions를 사진의 설명으로 GPT에 넣어줍니다.


Ask diverse questions and give corresponding answers.가 포인트!Question-Answer pair가, 우리가 모은 데이터셋이다!

Question-Answer pair가, 우리가 모은 데이터셋이다!캡션 및 박스와 같은 상황을 보여주며, 세 가지 유형의 응답을 제시








간단한 방법: image captioning dataset 그대로 활용 참고)를 활용하여, visual tokenizer을 LLM에 호환 가능하도록 W 만 학습language-only GPT4를 이용하여 만든 instruction-following dataset로 학습!Projection Layer와 LLM 모델 모두 업데이트

visual instruction following에 대한 향후 연구를 촉진하기 위해 -> 다양한 응용 지향 작업을 포함하는 두 가지 evaluation benchmarks를 구성


