분포의 연관성

Briley·2022년 7월 2일
0

Mathematical Statistics

목록 보기
1/1

들어가기 전에

이 포스트는 Hogg&Craig, Introduction to Mathetmatical Statistics 7th ed.를 학습하고 정리한 것입니다.

1. Bernoulli & Binomial

베르누이 시행: random experiment with two outcomes(ex. success/failure)

let X(success)=1,X(failure)=0,P(success)=pX(success)=1, X(failure)=0, P(success)=p, then
XBernoulli(p)X \sim Bernoulli(p)

let XX=the number of success in nn independent Bernoulli trial, then
XBinomial(n,p)X \sim Binomial(n,p)

베르누이 분포는 1번의 베르누이 시행에서 성공 여부를 나타내는 것으로 해석할 수 있기 때문에, 독립인 n개의 베르누이 확률변수의 합은 이항분포를 따른다.

추가. Multinomial Distribution

베르누이 분포와 이항 분포의 확장판이다. 한 번의 확률시행에서 나올 수 있는 결과의 경우의 수가 여러 개 일때 사용한다.

2. Geometric & Negative Binomial

Assume Bernoulli trial,
let XX= the number of failure / trial until 1st succes, then
XGeometric(p)X \sim Geometric(p)

let XX = the number of failure / trial until rth success, then
XNB(r,p)X \sim NB(r,p)

Geometric 분포가 Negative Binomial 분포의 special case인 것은 쉽게 유추할 수 있다. 이 분포들의 또 다른 특징은, 마치 continuous case의 Exponential 분포와 Gamma 분포의 관계와 대응된다는 것이다. 자세한 내용은 추후 공부 해야 하겠지만, 포아송 회귀(Poisson Regression)를 적용하기 위해서는 Poisson 분포의 특징과 같이 평균과 분산이 같다는 가정이 충족되어야 한다. 그러나 실제 data에서는 이 가정이 성립하지 않는 경우가 종종 발생하고, 이때 Negative Binomial 분포를 이용한다고 한다.

추가. Hyper Geometric Distribution

Geometric/Negtive Binomial 분포를 비복원 추출 시에 사용한다면, Hyper Geometric 분포는 복원 추출 시에 사용된다.

let NN : the number of elements in population, nn : the number of drawn elements without replacement, rr : the number of success in population,
and YY: the number of success in nn randomly selected items out of N elements without replacement, then
YHyperGeometric(N,n,r)Y \sim HyperGeometric(N,n,r)

3. Poisson

(1) Poisson Process

fixed interval 에서 사건의 횟수를 생성하는 확률과정이 Poisson 분포를 따른다면, 이 확률과정을 Poisson Process 라고 부른다. Poisson process with rate λ\lambda는 다음과 같은 조건을 만족 해야 한다.

Let g(x,w)g(x,w) : the probability of xx events in each interval of length ww

  1. g(1,h)=λh+o(h)g(1,h) = \lambda h + o(h)

    어떤 사건이 아주 짧은 time interval 에서 1번 발생할 확률은 해당 interval의 길이에 비례한다.

  2. g(0,h)=1λh+o(h)g(0,h) = 1-\lambda h + o(h)

  3. i=2g(x,h)=o(h)\sum_{i=2}^\infin g(x,h)=o(h)

    어떤 사건이 아주 짧은 time interval 에서 2번 이상 발생할 확률은 거의 0이다. (엄밀한 설명은 아닌 것 같지만 일단 넘어가자.)

  4. "Independet Increments" : The number of events in non-overlapping intervals are independent.

  5. "Stationaty Increments" : The number of events that occur in any interval of time depends only on the length of the time interval.

(2) Poisson Distribution

위와 같은 Poisson Process 에서, let XX = the number of events in an interval of length t ,Then

XPoi(λt)X\sim Poi(\lambda t)

4. Exponential & Gamma Distribution

위와 같은 Poisson Process에서 첫번째/kk번째 사건이 일어날 때 까지의 시간을 나타내는 분포가 exponential 분포와 gamma 분포이다.

The time until 1st event ~ Exp(λ)Gamma(1,1λ)Exp(\lambda) \equiv Gamma(1,\frac{1}{\lambda})

! 지수분포 표기는 rate 기준

The time until kkth event ~ Gamma(k,1λ)Gamma(k,\frac{1}{\lambda})

Exponential 분포가 Gamma 분포의 special case 임은 쉽게 알 수 있다.

5. Normal & Chi-square & t

정규분포는 통계학에서 가장 널리 사용되는 분포 중 하나이다. χ2\chi^2tt 분포는 사실상 검정을 위한 분포라 봐도 무방한데, 기초 통계 방법론의 가설검정에서 정규분포와 chi-square 분포의 관련성, 정규분포와 t분포의 관련성을 종종 이용한다.

ZN(0,1)Z2χ2(1)Z\sim N(0,1) \Rightarrow Z^2\sim\chi^2(1)

Tt(n)T\sim t(n) is similar to N(0,1)N(0,1) when nn is very large.

profile
응용통계학과 학부생의 정리 노트

0개의 댓글