변수는 확률 실험 결과를 숫자로 나타낸 것입니다. 예를 들어, 동전 던지기에서 앞면을 1, 뒷면을 0으로 표현하면 이는 확률 변수입니다. 확률 변수는 값의 개수에 따라 이산형 확률 변수(숫자를 셀 수 있는 경우)와 연속형 확률 변수(무한한 경우)로 나눌 수 있습니다.
이러한 확률 변수는 값에 대응하는 확률을 가지며, 이를 확률 분포라고 합니다. 확률 분포는 확률 변수의 형태와 분포를 나타내는 함수입니다. 확률 변수가 이산형이면 이산형 확률 분포이고, 연속형이면 연속형 확률 분포입니다. (이 개념에 대한 상세 내용은 여기! 있으니 참고하시기 바랍니다!)
이러한 두 분류(이산 vs. 연속)내에 카이제곱, 정규, 이항, 다항, 포아송과 같은 더 구체적인 확률 분포들이 존재하게 됩니다. 이번 글에서는 이산형 확률 분포에 속하는 확률분포 종류와 개념에 대해 짚어보도록 하겠습니다!
베르누이 분포는 매우 간단한 확률 분포로, 두 가지 가능한 결과에 대한 확률을 표현하는 데 사용됩니다. 예를 들어 동전이 앞면(성공: p) 또는 뒷면(실패: 1-p)으로 떨어지는 경우 2가지에 대한 확률을 모델링할 때 베르누이 확률 분포를 사용할 수 있습니다
또다른 특징은 베르누이 시행 간에는 독립성을 가정한다는 것입니다. 여기서 독립성을 가정한다는 것은 확률이 변하지 않는다는 것을 의미합니다. 예를 들어, 한 번의 동전 던지기에서 앞면이 나올 확률이 0.5라면, 두 번 던지더라도 각각의 던지기에서 앞면이 나올 확률은 여전히 0.5로 유지되지요? 이것이 독립성을 가정한 경우라고 할 수 있습니다.
😃 그렇다면 베르나누이 확률을 수학적으로 나타내볼까요?
앞서 말했듯이, 베르누이 확률 분포는 두 가지 가능한 결과 중 하나를 성공(Success) 또는 실패(Failure)로 표현하는 이진 확률 분포입니다. 일반적으로 성공은 1로 나타내고 실패는 0으로 나타냅니다.
확률 변수 X가 베르누이 분포를 따른다고 할 때,
성공 확률(p): 베르누이 확률 분포의 매개변수인 성공 확률(p)은 0과 1 사이의 값을 가집니다. 이것은 성공이 일어날 확률을 나타냅니다.
실패 확률(1-p): 1-p로 표현되며 실패가 일어날 확률입니다. (성공할 확률이 30%면 나머지 확률 70%는 실패확률이겠죠.그래서 1-p가 실패확률을 나타내게 됩니다.)
확률 질량 함수(PMF): 베르누이 확률 분포의 확률 질량 함수(PMF)는 다음과 같이 정의됩니다:
이항 분포는 베르누이 분포의 진화버전(?)이라고 볼 수 있습니다. 이항 분포는 동일한 베르누이 시행을 n번 반복한 후, 성공의 횟수를 나타내는 확률 분포입니다. B(n,p) = B(시행횟수, 성공할 확률) 를 사용하여 수학적으로 표현하게 됩니다.
베르누이 시행을 여러번 반복했을 때, 성공 또는 실패할 확률을 말해주니 당연히 수학적으로 나타낼때 꼭 들어가야할 지표는 "몇번 반복했냐?"와 "각 시행별 성공확률은 어떻게 되냐"이겠죠?!
시행 횟수(n) : 동일한 베르누이 시행을 몇 번 반복하는지를 나타냅니다.
성공 횟수(k): 이항 분포에서 성공(1)이 나오는 횟수를 나타냅니다.
성공 확률(p): 베르누이 시행에서 성공(1)이 나올 확률입니다.
n번 시행 중 k번 성공할 확률 :
(조합의 개념 이해가 필요하다면, 아래 조합글 참조해주세요!)
확률 질량 함수(PMF):
예시 문제를 통해 이항 분포가 어떻게 계산되고 해석되는지 확인해봅시다.
한 학생이 동전 2개를 동시에 던집니다. 이를 5번을 반복할때 2개의 동전의 앞면이 되는 경우가 3번 나올 확률은 구하세요!
이 문제는 이항 분포를 사용하여 풀 수 있습니다.
이제 주어진 정보에 따라 문제를 풀어봅시다. 2개의 동전이 앞면이 되는 경우가 3번 나올 확률을 구하려고 합니다. 이를 이항 분포로 표현하면 다음과 같습니다:
- n = 5 (동전 던지기를 5번 반복)
- p = 0.0625 (한 번의 동전 던지기에서 두 개의 동전이 동시에 앞면이 나올 확률)
- k = 3 (2개의 동전이 앞면이 되는 경우가 3번 나올 확률을 구함)
이제 다시 계산하면:
여기서
따라서,
따라서, 2개의 동전이 앞면이 되는 경우가 3번 나올 확률은 약 0.2637 또는 26.37%입니다.
포아송 분포의 사건은 서로 독립적이어야 합니다. 즉, 한 시간 동안 발생한 사건이 다른 시간 동안 발생한 사건에 영향을 주지 않아야 합니다. 예를 들어, 어떤 지역에서 1시간 동안 교통 사고가 발생하는 경우, 이러한 교통 사고가 서로 연관되어 있거나 연쇄적으로 발생하는 것이 아니라, 각 교통 사고는 독립적으로 발생한다고 가정합니다.
포아송 분포는 특히 드물고 무작위로 발생하는 사건들을 모델링하는데 사용되며, 독립성 가정은 이 모델을 적용할 때 중요한 가정 중 하나입니다. 이로 인해, 포아송 분포는 특히 드물고 무작위로 발생하는 사건들을 모델링하는데 사용되며, 독립성 가정은 이 모델을 적용할 때 중요한 가정 중 하나입니다.