[TIL] 가설검정과 EDA 과정 개념

하나·2022년 2월 21일
0

TIL

목록 보기
8/14
post-thumbnail

가설검정과 EDA 과정

가설 검정? (Hypothesis Testing)

가설을 세운 뒤 사실인지 아닌지 검사해보는 것

‘검증(validation)’과 비슷하지만 통계에서는 ‘검정’을 사용한다.

내 주장이 얼마만큼 타당한지 데이터를 통해 수치적으로 보는 것

귀무가설과 대립가설

고전 통계에선 기본 입장인 귀무가설(H0, null-hypothesis)과

반대되는 입장인 대립가설(H1, alternative hypothesis)이 있다.

이를 데이터를 통해 통계적인 비교 후 귀무가설을 기각할지 말지 정한다.

데이터 시각화 할 때 유의할 점

숫자보다 그림을 더 직관으로 보므로 사이즈를 비교할 때 유의해야한다.

EDA (Exploratory Data Analysis)

탐색적 데이터 분석

  • 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 것
  • 대표적인 예로 박스플롯을 들 수 있다.
  • 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다.

EDA의 과정

  • 분석의 목적과 변수가 무엇이 있는지 확인.

  • 개별 변수의 이름이나 설명을 가지는지 확인 데이터를 전체적으로 살펴보기 : 데이터에 문제가 없는지 확인.

  • head나 tail부분을 확인, 추가적으로 다양한 탐색(이상치, 결측치 등을 확인하는 과정)

  • 데이터의 개별 속성값을 관찰 : 각 속성 값이 예측한 범위와 분포를 갖는지 확인. 만약 그렇지 않다면, 이유가 무엇인지를 확인.

  • 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견 (상관관계, 시각화 등)

  • 이상치(outlier) 발견 > 제거, 유지, 수정 작업

이상값 (Outlier)

다른 자료와는 극단적으로 다른 값으로, 유난히 높거나 낮은 값을 보이는 데이터

참고 : https://fastcampus.app/course-detail/205687

0개의 댓글