기초 통계학 개요
데이터와 그래프
[변수(Variable)]
- 수학에서의 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호' 이다. 보통 쉽게 설명하기 위해서 '변하는 숫자' 라는 표현을 자주 쓰고는 한다
- 통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 함, 해당 변수에 대하여 관측된 값들이 바로 자료(Data)가 됨
[질적 자료]
- 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미함
- 데이터 입력시 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음 (순서형 변수: 교육수준, 건강상태)
[양적 자료]
- 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
- 숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있음
데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법을 Exploratory Data Analysis 라고함
EDA는 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의
방법임
[목적]
- 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
- 데이터 분석 프로젝트 초기에, 적절한 모델 및 기법의 선정
- 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
- 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용
데이터 시각화(data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을
말한다. 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다
- 시각화 Tool, 오픈소스 시각화 가능 Tool
데이터의 기초 통계량
[기초 통계량]
- 통계량(statistic)은 표본으로 산출한 값으로, 기술 통계량이라고도 표현함
- 통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음
[중심 경향치]
- 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 함
- 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음
- 평균은 모집단으로 부터 관측된 n개의 x가 주어 졌을때 아래와 같이 정의됨
[중앙값(median)]
- 평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
- 관측치가 홀수 일 경우 중앙에 취하는 값이고, 짝수 일 경우 가운데 두개의 값을 산술 평균한 값임
- 이상치가 포함된 데이터에 대해서 사용함
[최빈값(mode)]
- 관측치 중에서 가장 많이 관측되는 값
- 옷사이즈와 같이 명목형 데이터의 경우 사용
[산포도]
- 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
- 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음
[범위(Range)]
- 데이터의 최대값과 최소값의 차이를 의미함
[사분위수(quartile)]
- 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)이라고 함
- 사분위수 범위(interquartile range): IQR = 제 3사분위수(Q3) – 제1사분위수(Q1)
[백분위수(percentile)]
- 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료 값을 말함
- 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음
[분산(variance)]
- 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도 임
- 데이터의 각각의 값들의 편차 제곱합으로 계산하며 수식은 아래와 같음
[표준 편차(standard deviation)]
- 분산의 제곱근으로 정의하며 수식은 아래와 같음
[분산]
- 크기가 N인 모집단의 평균을
라고 할 때 모평균과 모분산은 다음과 같음
[변동계수(Coefficient of Variation: CV)]
- 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함
- 변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용함
[왜도(skew)]
- 자료의 분포가 얼마나 비대칭적인지 표현하는 지표임
- 왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고 0에서 작을수록 좌측 꼬리가 김
[첨도(kurtosis)]
- 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도임
- 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
- 3보다 작을 경우에는(K<3) 산포는 정규분포보다 꼬리가 얇은 분포로 생각할 수 있고, 첨도값이 3보다 큰 양수이면(K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단
확률(probability)
- 모든 경우의 수에 대한 특정 사건이 발생하는 비율이다
- 대체로 수학 외에서는, 0과 1 사이의 소수 혹은 분수나 순열 등으로 나타내기 보다는, 다른 비율을 나타낼 때처럼 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율(%)로 나타내거나 옛날처럼 할·푼·리로 나타내기도 한다
확률의 고전적 정의
- 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비이다
- 단, 이는 어떠한 사건도 다른 사건들보다
더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립한다
(확률의 최초의 정의는 수학자 라플라스의 논문 Théorie analytique des probabilités)
표본 공간(Sample Space)
- 표본 공간이란 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
- 동전 던지기의 경우 S = {앞면, 뒷면} , 주사위던지기 S = {1,2,3,4,5,6}
- 사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간(S)가 유한집합일때 표본 공간의 모든 원소들이 일어날 확률이 같으면
- 예제 1) 동전 두개를 던져서 뒷면이 한번만 나오는 확률을 얼마인가?
통계적 확률 정의
확률의 성질
![]
(https://velog.velcdn.com/images/wmth0907/post/97c43687-122a-456d-98c3-6dc31c96c8e2/image.png)
- 예제 2) 1부터 13까지 13장의 카드에서 한장을 뽑는 실험에서 아래의 사건을 생각해보자
조합과 순열
- 예제 3) 로또 1등의 확률과 2등의 확률을 구하시오
조건부확률(conditional probability)
어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 확률
[확률의 곱셈법칙]
베이즈 정리(Bayes’ Theorem)
- 예제 4) 자동차 보험의 고객의 분포 A등급 30%, B등급 50%, C등급 20%이고, 각 고객 등급별로 1년내 사고의 확률은 A등급 0.1 B등급 0.2 C등급 0.3이라면
확률 변수(random variable)
- 표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
- 확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
- 일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현함
확률 변수의 평균
- 기대값 이라고 표현하기도 하며, 수식은 아래와 같음
- 주사위를 던졌을때의 기대값은
- 확률 변수의 분산
- 예제 5)
a) E(X) = 3 일때 E(2X + 1)을 구하시오
b) 확률 변수 X의 평균이 5이고 분산이 10일 때, 확률변수 의 평균을 구하시오
- 예제 6) 복권 당첨 확률이 표와 같고, 확률변수 X가 복권의 당첨 상금일때 당첨금 X의 기대값을 구하시오
확률 분포(probability distribution)
- 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수
이산형 균등 분포(discrete uniform distribution)
- 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를
이산형 균등 분포라고 함
- 주사위를 한번 굴려서 나오는 숫자를 확률 변수 X라고 하면, 확률 변수 X는 아래와 같음
베르누이 시행(Bernoulli trial)
- 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 베르누이 시행이라고 함
- 베르누이 시행에서 성공이 ‘1’, 실패가 ‘0’의 값을 갖을 때 확률 변수 X의 분포를 베르누이 분포(Bernoulli distribution)라고 하며 다음과 같이 정의함
- 예제 1) 파란공 7개, 빨간공 3개가 들어있는 주머니에서 공 하나를 뽑을 때, 파란공이면 성공 빨란공이라면 실패인 실험을 한다고
가정하자. 이때 베르누이 분포를 정의하면
이항분포(Binomial distribution)
- 연속적인 베르누이 시행을 거처 나타나는 확률 분포
- 서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포
- 예시) 축구선수의 패널티킥 성공률이 80%일때, 10번의 기회에서 성공횟수와 그 확률을 구하면 아래와 같음
- 예제 2) 반도체 공장에서 불량이 발생할 확률이 10%라고 하자. 10개의 제품을 생성했을때 불량이 2개 이하일 확률을 구하시오
포아송 분포(Poisson distribution)
- 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포
- 예시) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수 등
[포아송 분포의 조건]
- 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예: 1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
- 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
- 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
- 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
- 포아송분포 확률 변수의 기댓값과 분산은 모두 λ 임
- 예제 3) 야구장에서 경기당 홈런볼을 잡는 관객이 평균 3명 이라고 가정하자
- 오늘 경기에서 2명 이상이 홈런볼을 잡을 확률을 구하시오
- 오늘과 내일 동안 경기에서 홈런볼을 잡지 못할 확률을 구하시오
[이항 분포의 포아송 근사]
- 확률 변수 X가 X ~ B(n,p)이고, n이 충분히 크고, p가 아주 작을 때, X의 분포는 평균이 λ = np인 포아송 분포로 근사 시킬 수 있음
- 보통 n이 클때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X ~ Poisson(np)
- 예시) 이항 분포와 포아송 비교
아래의 표는 엑셀로 가능하며 분포를 표현하는 함수식으로 작성해 보시오- n = 100, p = 0.01인 이항 분포 X~B(100, 0.01) 를 포아송 근사 하면 X ~ Poisson(1)이 된다 (λ = 100 ∗ 0.01 = 1)
기하분포(geometric distribution)
- 어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름
- 예시) 축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률 분포
음이항분포(negative binomial distribution)
- 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률 분포
- 예시) 농구 선수 허훈의 자유투 성공 확률이 90%일 때, 3번째 실패가 나올 때까지 성공시킨 자유투가 10번일 확률
summary
확률밀도함수(probability density function)
- 연속형 확률 변수 X에 대해서 함수 q 가 아래의 조건을 만족하면 확률밀도함수라고 함
- 확률 밀도 함수의 성질
- 확률밀도함수의 평균과 분산
누적분포함수(cumulative density function)
- 확률밀도함수를 적분하면 누적분포함수가 됨
균일분포(uniform distribution)
- 확률 변수가 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 같음
균등분포
- 균일 분포의 평균, 분산
정규 분포(normal distribution)
- 정규 분포는 19세기 최대 수학자라고 불리는 독일의 가우스에 의해 제시된 것으로 가우스 분포라고도 함
- 확률 밀도 함수는 확률 변수 X가 평균이 g 이고, 분산이 ù인 정규분포를 따를 때 아래와 같음
- 정규 분포(normal distribution)의 평균과 분산
- 파라메터의 따른 정규 분포 모양 비교
- 표준 정규 분포(standard normal distribution)
- 정규 분포의 성질
- 이항분포의 정규 근사
연속형 확률 분포 – 지수 분포
연속형 확률 분포 – 확률 분포의 관계도