이 포스트는 Hogg&Craig, Introduction to Mathetmatical Statistics 7th ed.를 학습하고 정리한 것입니다.
베르누이 시행: random experiment with two outcomes(ex. success/failure)
let , then
let =the number of success in independent Bernoulli trial, then
베르누이 분포는 1번의 베르누이 시행에서 성공 여부를 나타내는 것으로 해석할 수 있기 때문에, 독립인 n개의 베르누이 확률변수의 합은 이항분포를 따른다.
베르누이 분포와 이항 분포의 확장판이다. 한 번의 확률시행에서 나올 수 있는 결과의 경우의 수가 여러 개 일때 사용한다.
Assume Bernoulli trial,
let = the number of failure / trial until 1st succes, then
let = the number of failure / trial until rth success, then
Geometric 분포가 Negative Binomial 분포의 special case인 것은 쉽게 유추할 수 있다. 이 분포들의 또 다른 특징은, 마치 continuous case의 Exponential 분포와 Gamma 분포의 관계와 대응된다는 것이다. 자세한 내용은 추후 공부 해야 하겠지만, 포아송 회귀(Poisson Regression)를 적용하기 위해서는 Poisson 분포의 특징과 같이 평균과 분산이 같다는 가정이 충족되어야 한다. 그러나 실제 data에서는 이 가정이 성립하지 않는 경우가 종종 발생하고, 이때 Negative Binomial 분포를 이용한다고 한다.
Geometric/Negtive Binomial 분포를 비복원 추출 시에 사용한다면, Hyper Geometric 분포는 복원 추출 시에 사용된다.
let : the number of elements in population, : the number of drawn elements without replacement, : the number of success in population,
and : the number of success in randomly selected items out of N elements without replacement, then
fixed interval 에서 사건의 횟수를 생성하는 확률과정이 Poisson 분포를 따른다면, 이 확률과정을 Poisson Process 라고 부른다. Poisson process with rate 는 다음과 같은 조건을 만족 해야 한다.
Let : the probability of events in each interval of length
어떤 사건이 아주 짧은 time interval 에서 1번 발생할 확률은 해당 interval의 길이에 비례한다.
어떤 사건이 아주 짧은 time interval 에서 2번 이상 발생할 확률은 거의 0이다. (엄밀한 설명은 아닌 것 같지만 일단 넘어가자.)
"Independet Increments" : The number of events in non-overlapping intervals are independent.
"Stationaty Increments" : The number of events that occur in any interval of time depends only on the length of the time interval.
위와 같은 Poisson Process 에서, let = the number of events in an interval of length t ,Then
위와 같은 Poisson Process에서 첫번째/번째 사건이 일어날 때 까지의 시간을 나타내는 분포가 exponential 분포와 gamma 분포이다.
The time until 1st event ~
! 지수분포 표기는 rate 기준
The time until th event ~
Exponential 분포가 Gamma 분포의 special case 임은 쉽게 알 수 있다.
정규분포는 통계학에서 가장 널리 사용되는 분포 중 하나이다. 와 분포는 사실상 검정을 위한 분포라 봐도 무방한데, 기초 통계 방법론의 가설검정에서 정규분포와 chi-square 분포의 관련성, 정규분포와 t분포의 관련성을 종종 이용한다.
is similar to when is very large.