[AI] 차원의 저주

LONGNEW·2023년 7월 15일

연구

목록 보기

1/10

고차원의 데이터 즉, 이용하는 칼럼의 수가 많은 데이터 일수록 더 많은 입력 데이터가 있어야 해당 학습을 진행할 수 있다.

그러면 이유는 무엇일까?

차원이 낮을 수록 각 데이터간의 거리를 표현하기 쉽다. 차원이 높아질수록 특정 데이터 기준 거리가 1인 것의 비율을 찾을 때 가면 갈수록 적어지게 되면 차원이 높아지면 거리가 그냥 일단 멀다.

저차원의 데이터의 max dist / min dist는 1로 나타나고 고차원에서는 매우 크게 나타난다.
해당 특징을 통해 거리가 구분이 잘 안가기 때문에 이러한 문제가 생긴다고 할 수 있다.

출처 : https://www.youtube.com/watch?v=EXHR2-hECRM
출처 : 김동일 교수님 머신러닝 강의 자료