확률론
딥러닝과 확률론
- 딥러닝은 확률론 기반의 기계학습을 바탕에 두고 있음
- loss function을 최소화하도록 데이터를 학습하는 기본 원리
- 회귀 분석 - 손실함수: L2-norm
L2-norm: 오차의 분산을 최소화하는 방향으로 학습하도록 함
- 분류 문제 - 손실함수: cross-entropy
cross-entropy: 예측의 불확실성을 최소화하는 방향으로 학습하도록 함
확률변수와 확률분포
- 확률변수는 확률변수의 형태가 아닌 확률분포에 따라 이산형 / 연속형으로 구분됨
이산형확률변수
: 확률변수가 가질 수 있는 경우의 확률을 모두 더하여 모델링
1이 나올 확률, 2가 나올 확률,...,6이 나올 확률 -> 모든 확률값의 합 : 1
확률
연속형확률변수
: 합이 안되니 공간 범위에 대해 적분을 통해 모델링 (누적확률분포의 변화율을 모델링, 확률, 밀도)
=> 분포의 종류에 따라 모델링 방법이 달라짐
밀도
결합분포
: 두 개 이상의 확률변수들을 동시에 고려한 확률분포
- 연속형 확률변수도 범주화하면 이산형 취급 가능
주변확률분포
P(x) : y 상관없이 각 범위에 해당하는 x의 분포를 구하고 싶을 때, 즉 결합확률분포를 각 y에 대해 더해주거나 적분함
P(y)도 같은 방식으로 가능. 이 또한 결합확률분포를 통해 유도 가능
조건부확률분포
주어진 클래스에 대해서 x의 분포가 각각 어떻게 형성됐는지 확인 = 조건부확률분포
ex) y=1인 경우에 해당하는 데이터만 카운팅해라
- 선형모델 + softmax => 데이터에서 추출된 패턴을 기반으로 확률을 해석 (MLP)
- 분류 문제
:softmax는 데이터로부터 추출된 특징패턴과 weight를 통해 조건부확률 P(y|x) (데이터 x의 정답이 y일 확률)을 계산
ex) 이 이미지(x)가 강아지(0)일 확률, 원숭이(1)일 확률, 자전거(2)일 확률 (이진분류, 다중분류 문제 모두 가능 / 이진분류의 경우 sigmoid를 사용해도 무방)
- 회귀 문제
: 조건부기대값 E[y|x] 추정

기대값
- 걍 평균
- 연속확률분포 => 적분
이산확률분포 => 급수
- 기대값을 통해 여러 통계량 계산 가능
몬테카를로 샘플링
- x만으로 기대값을 계산하는 방법
- 확률분포를 몰라도 샘플링만 되면 기대값 계산 가능
- 이산형이든 연속형이든 상관없이 성립

-> 각 데이터 x에 대한 f(x)의 산술평균값 = 기대값에 근사
- 샘플링은 독립적으로 해야 함
- 독립추출만 보장되면 대수의 법칙에 의해 수렴성 보장