고차원의 데이터 즉, 이용하는 칼럼의 수가 많은 데이터 일수록 더 많은 입력 데이터가 있어야 해당 학습을 진행할 수 있다.
그러면 이유는 무엇일까?
차원이 낮을 수록 각 데이터간의
거리
를 표현하기 쉽다. 차원이 높아질수록 특정 데이터 기준 거리가1
인 것의 비율을 찾을 때 가면 갈수록 적어지게 되면 차원이 높아지면 거리가 그냥 일단 멀다.
저차원의 데이터의
max dist / min dist
는 1로 나타나고 고차원에서는 매우 크게 나타난다.
해당 특징을 통해 거리가 구분이 잘 안가기 때문에 이러한 문제가 생긴다고 할 수 있다.
출처 : https://www.youtube.com/watch?v=EXHR2-hECRM
출처 : 김동일 교수님 머신러닝 강의 자료