220929 자기주도학습 TIL

지구데이터·2022년 9월 29일
1
post-thumbnail

스케일링?

비교를 수월하게 하는 목적으로 사용

  • 데이터 가공 - 데이터 전처리 단계에서 진행

스케일의 종류

정규화 vs 표준화

정규화(Normalization)란, 값의 범위를 재조정
표준화(Standardization)란, 분포를 재조정

MinMaxScaler 최대-최소 스케일링

데이터가 0과 1 사이에 위치하도록 스케일링

StandardScaler 표준 스케일링

데이터의 평균 = 0, 분산 = 1 이 되도록 스케일링 == 표준 정규분포를 따르도록

MaxAbsScaler 최대-절대치 스케일링

데이터 → [-1, +1]

RobustScaler 강건(로버스트) 스케일링

데이터의 중앙값 = 0, IQE = 1이 되도록 스케일링

시각화 (수치형, 범주형)

relplot : 각 값들의 관계
그래프 형식 기본값은 산점도
kind를 통한 그래프 종류 선택

  • scatterplot : 두 변수, 수치형 데이터끼리
  • lineplot

displot : hist+kdeplot (분포+밀도)

  • histplot : 뱐수 하나 이상 (구간 내에 속하는 관측치의 수)
  • kdeplot : 분포
  • ecdfplot : 경험적 누적 분포 함수
  • rugplot : 선을 이용한 밀도 (러그 같이 깔리듯이 직선 직선 직선 |||)

catplot : 범주형, 수치형 변수 간의 관계

  • stripplot
  • swarmplot
  • boxplot
  • violinplot
  • pointplot
  • barplot

<SQL 문제 풀이>
소수점 처리 함수
CEIL() : 올림
FLOOR() : 내림
ROUND() : 반올림

profile
멋쟁이가 될꺼야~

0개의 댓글