😢 스터디노트(통계학 1)

zoe·2023년 5월 1일

Statistics

통계학 : 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
기술통계학 : 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
추론통계학 : 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

데이터의 이해

변수(Variable) : 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호', 변하는 숫자
질적자료 : 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇 개의 번주로 구분하여 표현할 수 있는 데이터
- 데이터 입력 시, 1은 남자, 2는 여자로 표현이 가능하나 숫자의 의미는 없음(순서형 변수 : 교육수준, 건강상태)
양적자료 : 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 가지고 있음
- 숫자를 표현할 때 이산형 데이터(숫자가 바로 떨어지는 것, ex) 성적)와 연속형 데이터(ex) 키)로 구분 가능

EDA(Exploratory Data Analysis) : 데이터를 탐색하는 분석 방법. 도표, 그래프, 요약통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법
- 목적
- 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
- 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
- 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
- 분석 데이터가 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

데이터 시각화(data visualization) : 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과. 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것
시간 시각화 : 주요 시각화 방법 - 막대그래프, 누적 막대그래프, 점그래프
분포 시각화 : 파이차트, 도넛아트, 트리맵, 누적 연속 그래프
관계 시각화 : 스캐터플롯, 버플차트, 히스토그램
비교 시각화 : 히트맵, 스타차트, 평행 좌표계, 다차원 턱도법
공간 시각화 : 지도맵핑

기초 통계량 : 통계량(statistic)은 표본으로 산출한 값, 기술통계량이라고도 함
중심 경향치 : 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라고 하며, 중심경향치라고 함
- 대표적인 중심 경향치는 평균, 중앙값, 최빈값, 절사 평균 등이 있다
평균 : 표본으로 추출된 표본 평균(sample mean). 모집단의 평균을 모평균이라고 하며 μ라고 표기

중앙값(median) : 평균과 같이 자주 사용되는 값. 표본으로부터 관측치를 크기순으로 나열했을 때, 가운데 위치하는 값.
- 관측치가 홀수일 경우 중앙에 취하는 값, 짝수일 경우 가운데 두 값을 산술 평균한 값
- 이상치가 포함된 데이터에 대해서 사용
최빈값(mode) : 관측치 중에서 가장 많이 관측되는 값. 옷사이즈와 같이 명목형 데이터의 경우 사용

산포도 : 데이터가 어떻게 흩어져 있는지를 확인하기 위해 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 한다. 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등
범위(Range) : 데이터의 최대값과 최소값의 차이를 의미
💡 사분위수(qurtile) : 전체 데이터를 오름차순으로 정렬하여 4등분 하였을 때, 첫 번째를 제 1 사분위수(Q1), 두 번째를 제 2 사분위수(Q2), 세 번째를 제 3 사분위수(Q3)라고 한다
- 사분위수 범위(IQR : interquartile range) : 제 3 사분위수(Q3) - 제 1 사분위수(Q1)
백분위수(percentile) : 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값. 제 p백분위수는 p%에 위치한 자료 값을 말한다.
- 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제 (100*p) 백분위수는 다음과 같다
- np가 정수이면, np번째와 (np + 1)번째 자료의 평균
- np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료

분산(variance) : 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도. 데이터의 각각의 값들의 편차 제곱합으로 계산

분산 : 크기가 N인 모집단의 평균을 μ라고 할 때 모평균과 모분산은 다음과 같다

표준 편차(standard deviation) : 분산의 제곱근으로 정의

💡 변동계수(Coefficient of Variation : CV) : 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용. 변동계수는 두 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용.

💡 왜도(skew) : 자료의 분포가 얼마나 비대칭적인지 표현하는 지표. 왜도가 0이면 좌우가 대칭, 0에서 클수록 우측꼬리가 길고, 0에서 작을수록 좌측 꼬리가 김
💡 첨도(kurtosis) : 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도. 3보다 작을 경우(k<3)에는 산포는 정규분포보다 꼬리가 얇은 분포로 판단. 첨도값이 3보다 큰 양수이면(K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단

확률 이론 - 확률

확률(probability) : 모든 경우의 수에 대한 특정 사건이 발생하는 비율.
확률의 고전적 정의 : 어떤 사건의 발생 활률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 대비이다 단 이는 어떠한 사건도 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일하날 수 있다고 할 때에 성립한다

표본 공간(Sample Space) : 표본 공간이란 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합.
통계의 확률 정의 : 어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우를 r/N이고, 사건 A가 일어날 상대도수라고 한다. N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데 이 극한값을 사건 A의 통계적 확률 또는 경험적 확률이라고 한다
확률의 성질
- 합사건(union) : 사건 A 또는 사건 B가 일어날 확률 A∪B
- 곱사건(intersection) : 사건 A와 사건 B가 동시에 일어날 확률 A∩B
- 배반사건(mutually exclusive event) : 사건 A와 사건 B가 동시에 일어날 수 없을 경우 A∩B = ∮
- 여사건(complement) : 사건 A가 일어나지 않을 확률 A^c
확률의 성질
1) 확률의 덧셈법칙 : : P(A∪B) = P(A) - P(B) - P(A∩B)
2) A와 B가 배반 사건이면, P(A∩B) = P(∮) = 0
3) A의 여사건이 A^c 이면, P(A) + P(A^c) = 1

!(Factorial) : n개를 일렬로 늘여 놓은 경우의 수를 n!로 표현. n! = n(n-1)(n-2)....2*1
순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수

조합(Combination) : 순서를 고려하지 않고 n개 중 r개를 뽑아서 배열하는 경우의 수

조건부확률(conditional probablity) : 어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 경우

확률의 곱셈법칙 : P(A∩B) = P(A) P(B|A) = P(B) P(A|B)
- 사건 A와 B가 독립일 경우, P(A∩B) = P(A) * P(B)
베이즈 정리(Bayes' Theorem) : 표본 공간 S에서 서로 배반인 사건 B1, B2 ...Bk에 의하여 분할되어 있을 때, 임의의 사건 A에 대하여 다음이 성립함

확률 이론 - 확률 변수

확률변수(random variable) : 표본공간에서 각 사건에 대응시키는 함수. 확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변한다. 일반적으로 확률변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현한다.

- 확률변수 : X, Y 등 대문자로 표현
- 확률변수의 특정값 :x, y 등 소문자로 표현
- 이산 확률 변수(discrete random variable) : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
- 연속 확률 변수(continuous random variable) : 연속형 또는 무한대와 같이 셀 수 없는 경우
- 확률변수 예시
a) 반도체 1000개의 wafer중 불량품의 수 X
b) 공장에서 생산하는 전구의 수명 T
c) 주사위를 던질 때 나오는 눈의 수 V

확률변수의 평균 : 기대값이라고 표현

확률변순의 분산

기대값의 성질
a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립한다.
a) E(a) = a
b) E(aX) = aE(X)
c) E(aX + b) = aE(X) + b
d) E(aX±bY) = aE(X) ± bE(Y)
e) X, Y가 독립일 때 E(XY) = E(X) E(Y)
분산의 성질
a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립한다.
a) Var(a) = 0
b) Var(aX) = a²Var(X)
c) Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) ←공분산
d) Var(aX ± bY) = a²Var(X) ± b²Var(Y) + 2Cov(X, Y)
e) X, Y가 독립일 때 Var(XY) = 0
💡 공분산 : 2개의 확률변수를 선형관계를 나타내는 값으로, 하나의 값이 상승할 때 다른값도 상승한다면, 양의 공분산을 가지고, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가진다.

확률분포

확률분포(probability distribution) : 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 확률을 표현한 함수
- 이산형 확률분포 : 베르누이 분포, 이항분포, 포아송분포, 기하분포, 음이항분포, 초기하분포
- 연속형 확률분포 : 균일분포, 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포

이산형 균등 분포

이산형 균등 분포(discrete uniform distribution) : 확률변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포

베르누이 분포

베르누이 분포 : 베르누이 시행에서 성공이 '1', 실패가 '0'의 값을 갖을 때 확률변수 X의 분포
베르누이 시행(Bernoulli trial) : 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행

베르누이 분포의 평균 : P, 분산 : p(1-p)
기대값 E[X] = 1p + 0(1-p) = p
분산 Var[X] = E(X-p)² = (0-p)²(1-p)+(1-p)²p = p(1-p)

이항분포

이항분포(Binomial distribution) : 연속적인 베르누이 시행을 거쳐 나타나는 확률분포. 서로 독립인 베르누이 시행을 n번 반복해서 실행했을 때, 성공한 횟수 X의 확률분포

예시) 축구선수의 패널티킥 성공률이 80%일때, 10번의 기회에서 성공횟수와 그 확률을 구하면 아래와 같음

이항분포의 기대값 : np, 분산 : np(1-p)

포아송 분포

포아송 분포(Poisson distribution) : 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포.
예시) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수
포아송 분포의 조건

어떤 단위구간(예. 1일)동안 이를 더 짧은 작은 단위의 구간(예 : 1시간)으로 나눌 수 있고 이러한 더 짧은 단위구간 중에 발생할 확률은 전체 척도 중에서 항상 일정
두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
포아송분포 확률 변수의 기댓값과 분산은 모두 λ(람다)임

이항분포의 포아송 근사 : 확률변수 X가 X~B(n, p)이고, n이 충분히 크고, p가 아주 작을 때, x의 분포는 평균이 λ = np인 포아송 분포로 근사시킬 수 있음. 보통 n이 클 때, np < 5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X ~ Poisson(np)

엑셀 함수
이항분포 : BINOM.DIST(X, N, P, 누적 여부)
포아송분포: POISSON.DIST(X, Ö, 누적 여부)
(1이면 누적

기하분포

기하분포(geometric distribution) : 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름

예시) 축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률 분포

기하분포의 기대값 : 1/p, 분산 : 1-p/p²

음이항분포

음이항분포(negative binomial distribution) : 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 확률분포

예시) 농구 선수 허훈의 자유투 성공 확률이 90%일 때, 3번째 실패가 나올 때 까지 성공시킨 자유투가 10번일 확률

음이항분포의 기대값 : r*(1-p)/p, 분산 : r(1-p)/p²

연속형 확률 분포

확률밀도함수

확률밀도함수(pdf : probablity density function) : 연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률밀도함수라고 함

누적분포함수

누적분포함수(cdf : cumulative density function) : 확률밀도함수를 적분하면 누적분포함수가 됨

균일분포

균일분포(uniform distribution) : 확률 변수 X가 a와 b사이에서 아래와 같은 확률밀도함수(pdf)와 같음

균일분포의 평균 = (b + a) / 2, 분산 = (b - a)² / 12

⭐ 정규분포

⭐ 정규 분포(normal distribution) : 가우스 분포라고도 한다. 확률밀도함수는 확률 변수 X가 평균이 μ이고, 분산이 σ²(σ : 시그마)인 정규분포를 따를 때 아래와 같다.

면적 : 1, 중심값 : μ

정규분포(normal distribution)의 평균과 분산
평균 : E[X] = μ
분산 : Var[X] = σ², 표준편차 = σ
표준정규분포(standard normal distribution) : 확률변수 X ~ N(μ, σ²) 정규분포를 따르고 확률변수 Z = (X - μ) / σ라고 할 때 확률변수 Z ~ N(0, 1)

예시1) P[Z ≤ 1.96] = 0.975
예시2) P[Z ≤ -1.96] = 1 - [Z ≤ -1.96] = 0.025
예시3) P[0.5 Z ≤ -1.96] = 0.975 - 0.6915 = 0.28354

정규분포의 성질

1. X ~ N(μ, σ²) 일 때, 임의의 상수 a, b에 대하여 aX + b ~N(aμ + b(E(aX + b) = aE(x) + b), a²a²(Var(aX + b) = a²Var(X)))

2. X ~ N(μ, σ²) 일 때, Z = (X - μ) / σ, Z ~ N(0, 1)

3. X ~ N(μ₁, σ₁²), Y ~ N(μ₂, σ₂²)이고, X와 Y가 독립일 때 aX + bY ~ N(aμ₁+ bμ₂, a²a₁² + b²σ₂²)

예시) X ~ N(100, 10²) 일 때, P[100 ≤ X ≤ 110]을 구하시오
P[100 ≤ X ≤ 110] = P((100-100)/10 ≤ (X-100)/10 ≤ (110-100)/10) = P(0 ≤ Z ≤ 1) = 0.8413 - 0.5 = 0.3413

이항분포의 정규 근사 : X ~ B(n, p)일 때, 확률변수 X는 n이 충분히 크면 근사적으로 X ~ N(np, np(1-p))를 따름

excel함수
norm.dist : 정규 분포값을 찾아줌
norm.inv : 정규 누적 분포 함수의 역함수 값을 찾아줌

지수분포

지수분포(exponential distribution) : 단위 시간당 발생할 확률 λ인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때가지 걸린 시간 확률 변수 X는 지수분포이다

예시) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지 대기 시간의 분포가 지수분포임

지수분포는 연속되는 사건의 사이의 대기 시간도 지수 분포다. 즉 앞의 예시에서 두 번째 버스가 도착하고 세 번째 버스가 도착할 때까지 대기 시간의 분포도 지수분포이다
지수분포의 평균과 분산
평균 : E(X) = 1 / λ
분산 : Var(X) = 1 / λ²
지수분포의 무기억성(Memoryless Property)

어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
예시)
버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음
전구를 한달 동안 사용했을 때 남은 수명은 한달 간 사용했던 영향을 받지 않음, 즉 새전구와 한달 간 사용한 전구의 남은 수명은 같다고 생각함
이런 문제로 실제 적용에 문제가 있고, 생존 분석에서는 Weibull 분포 또는 log-normal 분포를 사용하여 예측함

모집단과 표본분포

모집단(Population), 표본(Sample)

모집단(Population) : 모평균(μ), 모분산(σ²)
표본(Sample) : 표본평균, 표본분산

표본추출(Sampling) : 모집단으로부터 표본을 추출하는 것. 표본을부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함
- 복원추출(Sampling with replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있다
- 비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
- Random Sampling : 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 한다. 각 개체가 모두 동일한 확률로 추출하는 방법
불균형 데이터(Imbalanced Data)의 문제
1) Sampling 기법을 통하여 해결
2) 모델을 통한 성능 개선(ex: Cost-sensitive learning)

Sampling기법 : 관심의 대상의 비율이 낮은 경우
- Over Sampling : 타겟 데이터가 적은 class의 수를 많은 class의 비율만큼 증가시킴(일정 비율로 복원추출하는 개념)
- Under Sampling : 타겟 데이터의 많은 calss의 수를 적은 class의 비율만큼 감소시킴. 임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음

표본분포

통계량(Statistic) : 표본에 기초하여 계산되는 수치 함수

표본분포(Sampling distribution) : 통계량들이 이루는 분포
표본 평균(Sample mean)

표본평균 기대값 : μ
표본평균 분산 : σ² / n

모집단의 분포가 N(μ, σ²)라고 할 때,

⭐ 중심극한정리

⭐ 중심극한 정리(central limit theorem) : 평균이 μ이고 σ²인 임의의 모집단에서 랜덤 표본 X₁, X₂...Xn을 추출할 때 표본의 크기 n이 충분히(n ≥ 30) 크면, 표본평균은 근사적으로 정규분포 N(μ, σ²/n)을 따른다.

카이제곱분포

카이제곱 분포(Chi-square distribution) : 확률변수 Z₁², Z₂², ...Zn²가 표준 정규 분포를 따른 다면, 확률 변수는 Z₁² + Z₂² + ... + Zn²
Z ~ X²(ν) , Z가 카이제곱 분포를 따를 때
카이제곱 분포는 감마 분포에서 a = ν / 2, λ = 2와 같음
카이제곱 분포는 범주형 자료 분석에서 활용
⭐ 자유도(degree of freedom) : 표본수 - 제약조건의 수 또는 표본수 - 추정해야 하는 모수의 수를 의미하며 일반적으로 n - 1을 사용함.
ex) 표본의 크기가 5이고, 표본 평균이 3으로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네 개의 숫자에 의해 결정. 1, 2, 3, 4를 골랐다면 마지막 숫자는 자동으로 5가 되어야 평균이 5로 정해져 있다
카이제곱 분포는 자유도 ν의 크기에 따라 모양이 달라진다. 자유도가 커질수록 분포가 좌우 대칭 형태로 된다
⭐ 카이제곱 분포는 자유도가 커지면서 표준정규분포에 근사하며, ν ≥ 30이면, 확률을 근사적으로 정규분포로 구할 수 있음

⭐ T분포

만약 모표준편차 σ를 모른다면, σ를 대신해서 표본표준편차 s를 이용하여 확률변수 Z를 정의한다

⭐ F분포

F분포(F distribution) :

서로 독립인 두 정규 모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에 활용

추정

추정(estimation) : 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것
추정량(estimator) : 표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 한다
모수를 추정하는 방법 : 점추정(point estimation) 과 구간추정(interval estimation)

점추정

점추정 : 모수를 하나의 특정값으로 추정하는 방법
- 일치성(Consistency) : 표본의 크기가 모집단의 크기에 근접해야 한다. 표본의 크기가 크면 클수록(모집단에 가까울수록 오차가 작아짐)
불편성(unbiased estimator) : 추정량이 모수와 같아야 한다.

유효성(efficiency) : 추정량의 분산이 최소값이어야 한다. 모수에 대한 추정량의 분산이 작을수록 추정량이 효율적이다.
평균오차제곱(Mean Squared Error : MSE) : 평균오차제곱이 최소값이어야 한다

구간추정

구간추정 : 모수가 포함될 수 있는 구간을 추정하는 방법
신뢰구간(confidence level) : 추정값이 존재하는 구간에 모수가 포함될 확률
신뢰수준은 100 * (1 - α)%로 계산하며, α는 오차수준
신뢰수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미한다
이 오차를 유의수준(significant level)이라고 하며, p = 0.05라고 한다
신뢰구간은 신뢰 하한, 신뢰 상한으로 표시하며 아래와 같은 수식으로 표현 (추정하는 모수가 θ)

표본의 크기를 결정

허용오차(permissible error) : 추정한 값이 틀려도 허용할 수 있는 오차
정규분포의 신뢰구간을 통해 허용오차를 계산

모비율의 추정

모비율의 점추정
비율에 대한 주정으로 우리가 원하는 속성(class)에 속하면 '1'아니면 '0'일 때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p)
이 때 모비율의 점추정량을 표본 비율(sample proportion)이라고 함
모비율의 구간 추정
모비율 구간 추정에서는 정규분포의 근사가 가능한 대표본은 보통 np > 5, n(1-p)> 5를 동시에 만족해야 한다

모비율 표본 크기(대표본일 경우)

모평균 차이의 추정(구간추정 : 소표본, 모분산을 모르는 경우)
- 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능하지만, 모르는 경우에는 등분산 가정이 필요(두 모집단의 분산이 같다는 가정이 필요 σ₁², σ₂² = σ²)
합동 분산 추정량(pooled variance estimator) : 공통 분산의 추정량