AICE Basic 자격 시험 대비 강의를 들으며
데이터 분석의 전반적 개요 및 AIDU ez 사용법을 알아보았다.
상관관계가 높은 피처를 찾기 위해 히트맵을 사용.
상관관계가 높다.
-> 두 컬럼 사이에 선형성이 있을 뿐 인과간계가 있다는 것이 아님.
옵션에서 데이터의 범위는 항상 끝까지로 드래그 해서 설정해야 함.
컬럼들이 너무 많다면
히트맵을 통해 상관관계가 낮은 변수들을 분석해 삭제할 수 있을 것이다.
이 예시에서는 15개 뿐이므로 하나라도 없으면 아쉬운 상황이라 없애지 않는다.
이상치를 찾기 위해서는 박스 차트를 사용해야 함.
이상치가 심해보이지 않을 때는 min max scaling을,
이상치가 심해보일 때는 standard scaling을 사용.
표준 편차:
평균을 기준으로 데이터가 평균적으로 얼마나 벗어나 있는가에 대한 것.