📌 목차
- 프로젝트 주제
- 기획의도
- 선행자료 조사
- 데이터 수집 및 특성
- 모델
- 확장성
1) 기업과제
2) 영상 데이터의 중요성 증대
3) Pain-pint End-user
📌 Action Dataset: UCF-101
- UCF-101은 YouTube에서 수집한 비디오 중 액션 데이터 세트로, 101개의 액션 카테고리로 구성
- 인간 대 물체 상호 작용, 포즈, 인간 대 인간 상호 작용, 악기 연주, 스포츠 특성을 가진 행동 비디오를 포함하고 있음
- 총 비디오수는 13320개가 있고 훈련데이터셋과 시험 데이터셋의 비율은 약 3:1 입니다.
📌 Image Dataset for Object Detection
YTBB
- 이미지의 객체를 인식하고, 시간에 따른 객체의 이동 변화를 연구하기 위한 데이터셋
- 24만개 동영상에서 23개 오브젝트에 대해 백만개 이상의 사각 영역 좌표를 표시
VPCD
- 데이터 세트는 얼굴 수준의 주석이 있는 기존 비디오 데이터 세트를 기반으로 구축
- 신체 부호를 추가하고 주석을 달며 음성 발화에 주석을 달 수 있음
📌 Sound Dataset
Open-Source Audio Dataset
- 오픈 소스 데이터: 사운드의 이미지화된 데이터가 있고 for vector화
- 구글 리서치 사운드 데이터셋: 각 사운드의 샘플 비디오와 소리 녹음 데이터
Google Research Sound Dataset
- 각 사운드의 샘플 비디오와 소리 녹음 데이터
📌 Multi-Modal
Ai-Hub 멀티 모달 학습 데이터
- 영상, 이미지, 텍스트, 음성을 장면에 따라 라벨링해 묶어놓은 데이터셋
Type 1 ≈ Google Video Intelligence
- 사운드, 오브젝트, 스피치, 액션, 색감 등을 각각의 모델을 통해 임베딩한다.
- 임베딩된 값을 collaborative gating을 통해서 input text query문과 유사도 분석을 한다.
- 가장 유사도가 높은 장면을 출력해준다.
- 성능의 지표는 랭킹로스로 판단 가능하다.
Type 2 ≈ End to End Task Model
- Type 1을 => Type 2로 디벨롭
- 사운드, 스피치, 이미지와 텍스트를 각각의 모델을 통해서 임베딩
- 이 때, 텍스트 임베딩에 액션, 컬러는 태스크를 부여해서 모델의 정확도를 높여줌
- 이미지와 텍스트 임베딩을 치환 모델을 통해 묶어주고, 멀티모달 모델을 통해 장면 검색을 수행한다.