pandas-profile로 EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 행(데이터 개수): 5572개 열: 5 5572*5개의 cell중에 59.8%가 결측값 v2는 5169개의 중복되지 않은 값을 가지고 있다 1) 수집(Acquisition) 머신 러닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요합니다. 자연...
Scaling? Normalization? (정규화) **데이터의 분포는 변하지 않고 기존 데이터와 동일한 비율을 유지한 채 범위를 조정하는 것. ** 독립된 여러개의 변수를 사용할 때 각 변수 별로 단위가 다를 경우, 학습 시에 미치는 중요도가 달라지는 문제를 방지