확률의 순수 이론적인 측면과 달리 통계학은 데이터 분석과 모델링을 다루는 일종의 응용과학
EDA(Exploratory Data Analysis)는 통계학에서 비교적 새로운 영역
기존의 통계학은 적은 표본(샘플)으로 모집단에 대한 결론을 도출하기 위한 과정을 주로 다룸
센서 측정, 이벤트, 텍스트, 이미지, 비디오 등 데이터
대부분 정형화되지 않은 상태
가공되지 않은 원시 데이터를 활용 가능한 형태의 정보로 변환 필요
수치형, 범주형 데이터는 정형 데이터의 기본
수치 데이터에는 연속형, 이산형 데이터가 있음
범주형은 이진, 순서형 데이터가 있음
데이터를 종류별로 구분하여 해당 데이터를 어떻게 처리할 지 결정
데이터를 살펴보는 가장 기초 단계는 각 피처의 대푯값을 구하는 것(중심경향성 파악)
모든 값의 총합을 값의 개수로 나눈 값
데이터를 정렬했을 때, 한가운데에 위치하는 값
데이터 수가 짝수일 경우 중간값을 일반적으로 가운데 있는 두 값의 평균으로 함
중간값은 평균에 비해 위치 추정에 더 유리 (특이값의 영향을 평균에 비해 덜 받음) (로버스트함)
데이터 값의 밀집 정도를 나타내는 정보
변이 추정은 관측 데이터와 위치 추정값의 차이인 편차를 기본으로 함
데이터가 중앙값(평균)을 주변으로 퍼져있는 정도
변이를 측정하는 한 가지 방법은 편차들의 대푯값을 추정
편차 자체의 평균은 음의 편차, 양의 편차에 의해 0이 되기 때문에 절댓값의 평균을 구함(평균절대편차)
가장 많이 사용되는 변이 추정 방법은 제곱 편차를 이용하는 분산과 표준편차
분산은 편차 제곱의 평균, 표준편차는 분산의 제곱근
표준편차는 원래 데이터와 같은 스케일이기 때문에 분산보다 해석하기 쉬움
분산, 표준편차, 평균절대편차 모두 특잇값에 로버스트하지 않음
분산과 표준편차는 편차의 제곱을 사용하기에 특잇값에 더욱 민감함
로버스트한 변이 추정값으로는 중간값으로부터 중위절대편차(MAD)가 있음 (정렬한 편차 절대값의 중간값)
정렬된 데이터가 퍼져있는 정도
정렬 데이터를 나타내는 통계량을 순서통계량이라고 부름
가장 큰 값과 작은 값의 차이를 나타내는 범위
최대 최솟값 자체가 특잇값 분석에 큰 도움을 줌
특잇값에 민감한 것을 피하기 위해 범위의 양 끝 값들을 지운 후 범위를 다시 알아볼 수도 있음
백분위수 사이의 차이를 가지고 추정하는 방법
데이터에서 P번째 백분위수는 P퍼센트의 값이 그 값 혹은 그보다 작은 값을 갖고 (100-P)퍼센트의 값이 그 값 혹은 그보다 큰 값을 갖는 값을 의미
중간값은 50% 백분위수
사분위범위(IQR)
25% 백분위수와 75% 백분위수의 차이
위 방법들은 데이터의 위치 혹은 변이를 나타내기 위한 하나의 수치 데이터
데이터가 전반적으로 어떻게 분포하고 있는지 파악하는 방법
상자부분의 위, 아래는 각각 75%, 25% 백분위수
중간값은 상자 안의 굵은 수평선
위 아래 수염은 사분위범위의 1.5배 이상 더 멀리 나가지 않도록 함
도수분포표는 변수의 범위를 동일한 크기의 구간으로 나누어 구간별로 몇개의 값이 존재하는지 확인
히스토그램은 이 도수분포표를 시각화하는 방법
데이터의 분포를 연속된 선으로 보여줌
히스토그램과의 가장 큰 차이는 y축 값의 단위
밀도 그림에서는 개수가 아닌 비율을 표시
범주형 데이터는 비율이나 퍼센트를 이용할 수 있음
이진변수, 범주가 몇 개 안되는 변수는 각 범주의 비율이 어느정도 되는지 확인
막대도표를 사용하여 범주별 자료 수 시각화 가능
데이터에서 가장 자주 등장하는 값 혹은 값들
각 결괏값과 발생 확률을 곱하고 모두 더함
가중평균과 유사
범주형 데이터 중 범주에 해당하는 수치형 변수들이 존재하는 특별한 경우가 있을 수 있음
X가 커질 때 Y도 함께 커지는 경우, 혹은 함께 작아지는 경우 각각 양의 상관관계, 음의 상관관계를 갖는다고 할 수 있음
상관계수는 두 변수 사이의 상관관계를 같은 척도에 놓고 추정하는 것
두 변수의 편차들을 서로 곱한 값들의 평균을 각 변수의 표준편차의 곱으로 나눔 (피어슨 상관계수)
항상 +1, -1 사이의 값을 가짐
변수들이 선형적인 관계를 갖지 않을 경우 상관계수는 유용하지 않음