리샘플링은 모집단의 분포 형태를 알 수 없을 때 주로 사용하는 방법이다. 즉, 모분포를 알 수 없으므로 일반적인 통계적 공식들을 사용하기 힘들 때, 현재 갖고 있는 데이터를 이용하여 모분포와 비슷할 것으로 추정되는 분포를 만들어 보자는 것이다. 리샘플링은 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아서 통계량의 변동성(variability of statistics)을 확인하는 것이라고 할 수 있다. 즉, 같은 샘플을 여러 번 사용해서 성능을 측정하는 방식이다.
부트스트랩이라는 말은 ‘자기 스스로 하는’, ‘독력(獨力)의’라는 뜻을 가진 단어이다.
다시 말해 주변의 도움 없이 스스로 해낸다는 의미인데, 컴퓨터의 부팅이 bootstrapping을 줄인 말이라는 것은 잘 알려져있는 사실이기도 하다.
영단어 bootstrap의 어원은 부츠 신발의 등쪽에 달려있는 끈을 얘기하는데,
<허풍선이 남작의 모험> 에 나오는 일화에서 남작이 늪에 빠졌을 때 부츠 등의 끈을 잡고 스스로 빠져나왔다는 어처구니 없는 이야기에서 유래됐다는 설이 있다.
1종 오류 : 귀무가설이 참일때 기각할 경우
2종 오류 : 귀무가설이 거짓일때 채택할 경우
귀무가설이 옳다는 가정하에 검정 통계량이 구해질 확률, 결국 p-value가 유의수준() 보다 작다면 귀무가설을 기각하게 된다.
로그 가능도를 사용하는 이유는 여러가지가 있는데
(1) 로그가능도를최적화하는모수 는가능도를최적화하는MLE가됩니다.
(2) 데이터의 숫자가 적으면 상관없지만 만일 데이터의 숫자가 수 억단위가 된다면 컴퓨터의 정확도로는 가능도를 계산하는것은 불가능합니다.
(3) 경사하강법으로 가능도를 최적화할때 미분연산을 사용하게 되는데,로그
가능도를 사용하면 연산량을 에서 으로줄여줍니다.
기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터
에서 관찰되는 확률분포의 거리를 통해 유도합니다.
데이터공간에 두 개의 확률분포 , 가 있을 경우 두 확률분포사이
의 거리(distance)를 계산할때 다음과 같은 함수들을 이용합니다.
- 총변동 거리(TotalVariationDistance,TV)
- 쿨백-라이블러발산(Kullback-LeiblerDivergence,KL)
- 바슈타인거리(WassersteinDistance)
KL divergence는 다음과 같이 표현합니다.
결국 분류문제에서 정답 레이블을 ,모델예측을 라고 두면 최대가능도추정법
은 쿨백-라이블러발산을 최소화하는 것과 같습니다.