수치형 데이터는 정규화를 통해 차원의 영향을 제거 할수 있습니다.
하지만 만능은 아닙니다. 의사결정 트리 계열의 모델은 정규화가 굳이 필요 없습니다
트리계열의 경우 범주형 피처를 그대로 사용할 수 있지만 로지스틱 회귀, SVM 같은 모델들은 반드시 수치형 피처로 전환해야 분석이 가능해집니다.
모든 데이터는 서로 독립적이지 않습니다. 불연속한 쌍을 조합시켜 고차원의 결합 피처를 만들어서 하나의 피처로 사용할 수 있습니다.
차원 축소가 되어지므로 파라미터 수를 줄일 수 있습니다.
피처들끼리 결합하기 위해서는 여러 조합이 존재하게 됩니다. 두 피처를 잘못 조합할 경우 과적합, 파라미터 과다 문제가 생기게 됩니다.
따라서 더 효율 적인 방법을 통해 결합 피처를 구해야 합니다.
텍스트는 중요한 비정형 데이터 중 하나입니다. 다음은 텍스트를 머신러닝이나 딥러닝에 사용할 수 있게 변환하는 과정입니다.
BOW, N-GRAM 모델
-
= 문장 d에서 출현한 단어 t의 개수
=
문장을 단어 단위로 구별할 경우 단어를 조합해서 사용할 때와 의미가 다르게 사용되기도 합니다. 자주 출현하는 단어들을 한 그룹으로 구성해서 표현하는 방식이 N-GRAM
방식입니다
워드 임베딩과 딥러닝 모델
딥러닝의 경우 단순히 문장을 단어 단위로 벡터로 바꿔서 만들어진 차원이 높은 행렬에 대해서도 잘 잡아내는 경향이 있습니다.
따라서 일반적인 다른 머신러닝에 비해서 뛰어난 성능을 보이게 됩니다.
머신러닝은 기본적으로 많은 데이터가 있을수록 잘 훈련이 됩니다. 데이터가 부족할 경우 해결책입니다.