*해당 글 내용의 출처는 스케터랩 기술블로그
(1)루다, 눈을 뜨다! 포토챗 베타의 멀티모달 기술 소개(2022.11.9), (2)멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?(2023.9.13) 입니다.
Intro. Scatter Lab?
Part 1.
Part 2.
Part 3.
⭐️ Summary
- 리트리벌 모델의 한계 -> 대규모 언어모델을 이용한 VLP로 해결
- 대화 문맥을 고려할 수 없는 기존 학습 데이터의 한계 -> 다양한 대화 상황을 포함하는 멀티턴 데이터로 해결
- 이미지 캡셔닝 태스크 :이미지 자채에 대한 적절한 묘사, 설명
- 이미지 코멘팅 태스크 :문맥을 고려한 반응
1) 리트리벌 모델
: 정해진 후보들 중에서 답변을 고름
2) Autoregressive한 방식으로 직접 답변 생성
💡point
정성평가라고 해도 판단 기준을 최대한 명확하게, 촘촘하게 세우기. 혹은 판단하는 레이블러를 여러명 두어 특정 인물의 주관성에 결과가 치우치지 않도록
💡point
리트리벌 모델은 디테일하게 학습한만큼의 성능을 보여줌. 대신 준비하지 못한 답변에 대해서는 응용력이 떨어진다.
1) 리트리벌 모델의 한계
리트리벌 모델은 정해진 답변 문장 후보들 중에서만 선택할 수 있기 때문에 표현력에 한계 존재
2) 현재 대화 모델 구조의 한계
기존 모델은 단일 이미지와 이미지에 대한 단일 발화 형태의 데이터로 학습
이미지에 대한 반응으로는 적절하지만 대화맥락과는 맞지 않는 경우 존재
멀티턴 이미지 대화 태스크
데이터 제작
이미지 기준으로 이전 10턴의 발화와 이후 3턴의 발화를 포함하는 컨텍스트 샘플링 -> 비식별화 과정을 거쳐 레이블링을 받을 2만 건의 대화 세션 준비
사진 1개에 대한 적절한 발화 2개
이미지를 포함하는 멀티턴 대화 능력 평가를 위해 유형을 세가지로 나눠 테스트셋 구축
1) 문맥과 이미지가 관련이 없는 경우 : 새로운 주제로 대화 시작 능력
2) 문맥과 이미지가 관련이 있는 경우 : 문맥에 어긋나지 않으면서 이미지에 대한 답변 능력
3) 이미지가 여러 개 존재하는 경우 : 이미지 사이의 연관성과 문맥과의 관계 파악 답변 능력
❓비전인코더
이미지를 입력받아 이를 숫자 벡터로 변환하는 역할.
ex. ResNet
❓프로젝션 레이어
두 가지 다른 유형의 데이터를 동일한 공간으로 변환하는 역할
ex. 텍스트와 이미지를 같은 의미 공간으로 매핑하여 둘 사이의 연관성을 찾기 쉽게 함
(👉텍스트 처리 부분은 기존의 잘 학습된 모델을 그대로 사용하고, 이미지 처리 부분과 이 둘을 연결하는 부분만을 학습한다는 맥락)
Part3에서는 추후 나아갈 방향에 대해 다룹니다.
제타
연구중인 문제
배경 자동 생성 기능