⚡ 내 안에 존재하는 paired data
- 가지고 있는 데이터가 paired data도 아니고 unpaired data도 아니라면?
-> 사실 그 속에서 paired data를 추출해 낼 수 있다.
-> 만약 구글링해서 다운 받은 사람의 사진이라면 그 속에서 진짜 사진이라 는 lable을 찾아낼 수 있다.
⚡ 인공지능으로 얼굴 만들기(generator와 discriminator의 학습)
- white noise : 모든 주파수의 성분을 가지고 있는 noise
- GAN(Generative Adversarial Network)
- generator : white noise를 입력으로 받아 discriminator를 속일 정도의 좋은 영상과 사진을 만든다.
- discriminator : 진짜와 가짜를 판별
⚡ 텍스트 분석을 위한 데이터 변환
- 명사? 형용사? 의마? 어떤 lable도 없는 데이터
-> 이 안에도 paired data가 있다.
-> 입력 : (웜테일은, 가늘게) (목소리로, 재빨리, 말했다) -> x??? -> 출력 : 떨리는
⚡ 언어모델
- 사람처럼 유창한 글을 쓴다.
- 텍스트 생성 모델 중 가장 대표적
- GPT의 학습 데이터는 주어진 문장 다음에 오기에 가장 적당한 단어를 맞추는 방식으로 구성 ex) 웜테일은 가늘게 떨리는 목소리로 재빨리____.
- 텍스트의 의미를 정확하게 분석하는 작업에 널리 활용되는 가장 대표적인 언어 모델
- BERT의 학습 데이터는 텍스트에서 중간 위치를 빈칸으로 가려놓고 그게 무엇인지 맞추는 방식으로 구성 ex) 웜테일은 가늘게 ____ 목소리로 재빨리 말했다.
🔥 3. XLNET 모델
- '다음 단어들의 순서를 바르게 정리하시오' 로 학습 데이터를 구성한다.
- BERT 이후 발표
⚡ Paired Data를 만들어 보자
- 일반인의 영상으로 포즈 정보 뽑아냄(포즈 정보는 오픈 코드를 이용해 지도학습으로 쉽게 만들 수 있음)
- 만들어진 포즈 정보 혹은 스켈레톤 정보로 generator가 영상을 만듬, 이때 만들어진 영상은 원래의 영상과 같은 영상
- 스켈레톤 정보만 주면 (일반인의)영상을 만들도록 generator를 학습
- 댄서의 영상에서 추출한 스켈레톤 정보를 이용해 generator가 일반인의 영상을 만듬(댄서의 영상에서 추출한 스켈레톤 정보와 일반인의 영상을 합성)
- 결국 포즈와 실제 이미지의 pair가 생김