Sufficiency

김당찬·2023년 3월 31일
0

이번 포스트에서는 통계학의 추정, 검정 등에서 중요하게 사용되는 통계량의 충분성에 대해 정리하고자 한다. 확률공간 (Ω,F,P)(\Omega,\mathcal{F},P) 을 이용해 random experiment를 정의할 때, 우리는 확률측도 PP를 population이라고 정의하기도 한다. 이때 random sample이란, 주어진 population PP로부터 데이터를 생성하는 random element(ex. random vector, random variable)을 의미한다.
만일 모든 event AFA\in\mathcal{F} 에 대한 확률분포 P(A)P(A) 를 알 수 있으면 좋을 것이지만, 현실에서는 주어진 데이터가 어떤 확률분포로부터 생성되었는지 알 수 없으므로, 우리는 주어진 데이터, 즉 sample로부터 적절한 연역적 과정을 거쳐 PP에 대한 정보를 추정해나가야 할 것이다. 이것이 통계적 추정(Statistical Inference)의 기본 원리이다.

Statistical Model and Statistics

통계적 추론 과정에서 모델(Model)이란, 실제 확률분포 PP에 대한 가정들의 집합이라고 볼 수 있다. 일반적으로 많이 사용하는 모델은 모수적 모형(parametic family) 이다. 이는 확률공간에서 주어진 확률측도의 집합 PθP_\thetaθΘRd\theta\in\Theta\subset\mathbb{R}^{d} 에 의해 주어지고, 각 parameter θ\theta의 값이 주어지면 확률분포를 알 수 있게 되는 것을 의미한다.
예를 들면, A라는 집단의 어떤 특성을 파악하고자 할 때, 해당 특성이 정규분포를 나타낼 것이라고 가정하면

Pθ={N(μ,σ2):μR,σ2>0}\mathcal{P}_{\theta} = \{N(\mu,\sigma^{2}):\mu\in\mathbb{R},\sigma^2>0\}

처럼 모수적 모형을 가정할 수 있다. 이때 모수공간 Θ\ThetaR2\mathbb{R}^{2}의 부분집합임을 알 수 있다.

통계량(Statistic)이란 random sample XX의 함수 T(X)T(X)를 의미한다. 확률론적인 관점에서 살펴보면, 통계량의 중요성을 이해할 수 있다. 통계량 T(X)T(X)XX의 미지의 분포에 대한 정보를 가지고 있는데, 이는 σ\sigma-field σ(T(X))\sigma(T(X)) 를 살펴보면 된다. 또한, T(X)T(X)XX와 일대일 대응이 아니라면, 일반적으로 σ(T(X))σ(X)\sigma(T(X))\subset\sigma(X) 이 성립하므로 통계량은 random element의 σ\sigma-field 를 축소시키는 역할을 한다.

Sufficiency

미지의 확률분포 PPP\in\mathcal{P} 으로부터의 random sample XX와 이에 대한 통계량 T(X)T(X)가 주어졌다고 하자. 이때 통계량 T(X)T(X)P\mathcal{P}에 대한 충분통계량(sufficient statistic)이라는 것은 TT가 주어졌을 때 XX의 조건부 분포가 알려져 있음(known)을 의미한다. (i.e. does not depend on PP or θ\theta)

일반적으로 충분통계량은 직접적으로 구하기보다는 아래의 분해정리를 이용한다.

Factorization Theorem

XPθPX\sim\mathcal{P}_{\theta}\in\mathcal{P}, T(X)T(X)θ\theta의 충분통계량인 것은 아래를 만족하는 음이 아닌 함수 g,hg,h 가 존재한다는 것과 동치이다.

pθ(x)=g(T(X),θ)h(X)    xX,θΘp_{\theta}(x)=g(T(X),\theta)h(X)\;\; \forall x\in\mathcal{X},\forall\theta\in\Theta

그런데, 충분통계량은 유일하게 존재하지 않음을 간단하게 확인할 수 있다. 극단적으로, 통계량 T(X)T(X) 를 다음과 같이 잡아버리면

T(X)=(X1,,Xn)T(X) = (X_{1},\ldots,X_{n})

모든 random sample의 값이 주어졌으므로, 통계량이 주어졌을 때 random sample의 조건부 확률분포는

P(XT=t)=P(X1=t1,,Xn=tn)P(\mathbf{X}|T=t) = P(X_1=t_1,\ldots,X_{n}=t_{n})

처럼 실수의 확률값이 되어 population 혹은 모수에 의존하지 않게 된다. 즉, random sample 자기 자신은 충분통계량이 되는 것이다.
그렇다면 충분통계량의 개수가 수없이 많아지므로, 이들 중 가장 좋은 충분통계량을 선택해야 할 필요성이 제기된다. 이때 주어진 샘플의 정보를 유지하며 축소시키는 것이 관건인데, 이 관점으로 다음과 같이 최소충분통계량을 선택할 수 있다.

Minimal Sufficiency

Random sample XPθ,θΘX\sim P_{\theta},\theta\in\Theta에 대해 통계량 T(X)T(X)가 다음 두 조건을 만족하면 이를 θ\theta에 대한 최소충분통계량(minimal sufficient statistic)이라고 정의한다.

  1. T(X)T(X)θ\theta에 대한 충분통계량이다.
  2. 모든 충분통계량 S(X)S(X)에 대해
    $$ T(X)=r(S(X))\;\;\text{a.s.}\;\;\forall\theta$$

이때 minimal sufficiency와 관련하여 다음 정리가 성립한다.

Suppose that P\mathcal{P} contains p.d.f.'s fPf_{P} w.r.t. a σ\sigma-finite measure and that there exists a sufficient statistic T(X)T(X) such that, for any possible values x,yXx,y\in X
fP(x)=fP(y)ϕ(x,y)  PT(x)=T(y)f_{P}(x)=f_{P}(y)\phi(x,y)\;\forall P \Rightarrow T(x)=T(y)
Then T(X)T(X) is minimal sufficient for PPP\in\mathcal{P}

References

  • Mathematical Statistics, Jun Shao.
  • Mathematical Statistics, Bickel and Doksum.
profile
블로그 이사했습니다 https://ddangchani.github.io

0개의 댓글