generalization, normalization, standardization

amin·2022년 8월 8일
0

ML과 Feature Engineering에 관련된 단어들이죠. ML뿐만 아니라 DL에서도 매우 중요한 단어들입니다. 각각의 용어가 어떤 의미를 가지고 있으며 어떤 목적을 가지고 사용되는지 서술하세요.
특히, normalization과 standardization이 어떤 차이점을 가지고 있는지 상세히 작성해주시길 바랍니다.

generalization(일반화)는 학습된 model이 학습에 사용된 data set에서만 좋은 성능을 나타내지 않고(학습에 활용된 data set에만 편향되어 있지 않고), 새로운 input data가 들어왔을때도 (동일하게) 좋은 성능을 나타내는 것을 말하며, model을 학습시킬때 이를 목표로 진행 하기도 합니다.

normalization(정규화)는 2개 이상의 feature값이 있다고 가정할 경우, model이 학습할시에 필요한 각각의 feature의 value값을 동일하게 학습할 수 있도록 하는 것을 말하며, value값들을 0과 1사이의 값으로 만듭니다.

standardization(표준화)는 각각의 feature값들이 종모양(gaussian)의 분포를 한다고 가정하고 평균을 0으로 주고, 표준편차를 1로 갖도록 해주는 것을 말합니다.

(titanic을 예로 들어 feature가 각각 나이, 티켓값일 경우 feature에 해당하는 value값이 나이는 100을 넘지 않을것이고, 가격은 최소가 1000을 넘을경우 가격의 feature에 가중치를 주지 않고 동등하게 학습시키기 위함입니다.)

normalization과 standardization의 차이점

normalization은 최대값이 1, 최소값이 0이기 때문에 모든 feature value값이 0~1 사이에 분포하고 있지만, standardization의 경우에는 평균값을 0, 표준 편차를 1을 갖도록 하는 차이점이 있습니다.

추가적으로 normalizaion과 다르게 standardization은 최소값, 최대값을 제한하지 않기 때문에 outlier(이상치)를 파악할 수 있습니다.


(사진 출처 : https://heeya-stupidbutstudying.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%A0%95%EA%B7%9C%ED%99%94%EC%99%80-%ED%91%9C%EC%A4%80%ED%99%94)

profile
ENTJ-A

0개의 댓글