가설을 세운 뒤 사실인지 아닌지 검사해보는 것
‘검증(validation)’과 비슷하지만 통계에서는 ‘검정’을 사용한다.
내 주장이 얼마만큼 타당한지 데이터를 통해 수치적으로 보는 것
고전 통계에선 기본 입장인 귀무가설(H0, null-hypothesis)과
반대되는 입장인 대립가설(H1, alternative hypothesis)이 있다.
이를 데이터를 통해 통계적인 비교 후 귀무가설을 기각할지 말지 정한다.
숫자보다 그림을 더 직관으로 보므로 사이즈를 비교할 때 유의해야한다.
탐색적 데이터 분석
분석의 목적과 변수가 무엇이 있는지 확인.
개별 변수의 이름이나 설명을 가지는지 확인 데이터를 전체적으로 살펴보기 : 데이터에 문제가 없는지 확인.
head나 tail부분을 확인, 추가적으로 다양한 탐색(이상치, 결측치 등을 확인하는 과정)
데이터의 개별 속성값을 관찰 : 각 속성 값이 예측한 범위와 분포를 갖는지 확인. 만약 그렇지 않다면, 이유가 무엇인지를 확인.
속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계, 시각화 등)
이상치(outlier) 발견 > 제거, 유지, 수정 작업
다른 자료와는 극단적으로 다른 값으로, 유난히 높거나 낮은 값을 보이는 데이터