EDA
도구
- 탐색적 데이터 분석
- 그래프 , 통계량
- 데이터를 요약하는 값들 (합계 , 평균 , 최대값 , 최솟값)
CDA
if
- 만약 어떠한 case 가 맞는지 틀리는지 보고 싶을떄
도구
중요사항
- 언제 어떤 그래프를 그릴것인가.
- 언제 어떤 통계량을 구할것인가
- 언제 어떤 가설감정 방법을 사용할것인다.
EDA & CDA 단계
단변량 분석
- 개별 변수의 분포
- ex) 타이타닉의 탑승객의 나이를 분석
이변량 분석1
- feature 와 target 간의 관계 (가설 확인 단계)
- ex) 객실등급 -> 생존여부 (객실등급이 생존여부에 영향을 주나)
이변량 분석2
- feature 들 간의 관계
- x1 , x2 의 관계가 있나?
- ex) 나이랑 운임이 관계가 있나?