3. 데이터 전처리

YJ·2023년 9월 28일

데이터 전처리

데이터 확인하기
- info(): 스키마 확인 (문자열 - object, 숫자형: int64, float64)
- head(): 앞 5개 샘플 데이터 확인 (결측치 존재 여부 확인을 위해)
- tail(): 뒤 5개 샘플 데이터 확인 (결측치 존재 여부 확인을 위해)
- describe(): 통계 확인
타입 변경

x=x.astype({'a': int}) # 현재 타입을 int로 변경

x=x.replace("_", np.NaN)
# 참고로 NaN => null과 동일한 의미를 가짐
# 타입 변경 시, NaN의 경우 int가 아닌 float type으로 변경해야 함

제거 (정보손실 가능성 존재)
- listwise: 결측치 존재하는 전체 행 삭제 (행에 하나라도 결측치 있으면 다 삭제)
- pariwise: 결측치로 존재하는 변수만 삭제 (한 행의 모든 변수가 결측치인 경우 삭제)
채우기
- 값 대체하기: 평균, 중앙값, 최빈값 등의 평균화 값으로 결측치를 대체
- 예측하기: 주변 행의 상관관계 등을 예측하여 결측치를 대체

Data Collection => Feature Engineering => Modeling

연속형 변수 => 범주형 변수 (연속형 변수로 그룹을 만듬)
- cut(동일 길이(구간 값)), qcut(동일 갯수(구간 갯수). q=2 => 데이터개수를 2등분)

숫자 데이터의 상대적 크기 차이 제거법
- StandardScaler(): 정규분포
- RobustScaler(): 중간 값, 사분위 값 사용
- MinMaxScaler(): 특성이 0~1사이의 범위
- MaxAbsScaler(): 특성의 절대값이 0~1 범위 (전체 값은 -1~1범위)

# get_dummies 함수 사용
x = pd.get_dummies(x['a'])

💻귀찮으니 필요할 때만 쓰는 Computer Vision 일지 ㅇㅇ💻