Today I Learned
Positive Augmentation 실험에 대해 정리해봤다.
Positive Augmentation
- 가설 : Cold Start User의 sequence augmentation을 진행하면 성능 개선 될 것
- negative sampling처럼 positive sampling도 생성해서 유저의 interaction sequence를 늘리면 성능이 올라갈 것이다.
- 방법 : contents based 방식으로 유사한 아이템 증강
- side info(title, genres, year, tags)를 활용하여 contents based 유사도 계산
- Cold Start User 기존 item마다 n개씩 증강 후 sequence 구성
- Data leakage를 방지하기위해 train 데이터만 증강 수행
- 실험 : item 증강 위치 수정, n값 변경
- 증강 item들을 앞에 두고 기존 item을 뒤에 배치
- 기존 item들의 증강 item들을 각 item의 앞쪽에 배치
- 기존 item들의 증강 item들을 각 item의 뒤쪽에 배치
- n 값 변경 (1, 3, 5, 10)
- 실험 결과 : 모든 실험에서 Baseline 성능에 비해 하락

- 결론
- Sequential 모델에서는 유저가 상호작용한 아이템의 순서가 중요한데, 임의적인 증강 item 배치가 Cold Start User 학습에 Nosie로 적용되어 성능 하락으로 이어진 것으로 추론론
- positive한 상호작용만 한 것이 아니라 모든 상호작용을 대상으로 했기 때문에 부정적인 상호작용 item(예를 들어 rating 3점 이하)를 증강할 경우 Noise로 적용될 여지가 있음