bootstrap aggregation의 약어
- bootstraping : 표본 복원 재추출 방법
작동원리 : train data set에서 무작위 샘플링을 하여 동일한 알고리즘에 의한 모델링을 수행 > output 평균화
각 개별 모델이 임의의 양만큼의 오류를 가지므로 그 결과를 평균화하면 임의의 오류가 상쇄되고 예측이 정답에 가까워짐.
집단지성을 통해 오류를 감소시키는 전략
머신러닝 모델의 높은 분산 해결에 사용됨
대표적인 bagging 앙상블 예시 : random forest
사용하는 모델과 알고리즘이 동일하다.
random forest의 경우 하위 모델은 모두 단기 결정트리임.
cov=var(완벽한 상관관계)이면-> 모델 평균화는 전혀 도움이 되지 않음
cov=0(완벽한 독립 관계)이면 -> 앙상블 모델의 평균 제곱 오차는 var/k. 예상 제곱 오차는 k(앙상블의 모델 수)가 증가할수록 선형적으로 감소함. -> 모델수가 증가할수록 효과적
1) https://techblog-history-younghunjo1.tistory.com/103
2) https://hwi-doc.tistory.com/entry/%EC%8A%A4%ED%83%9C%ED%82%B9Stacking-%EC%99%84%EB%B2%BD-%EC%A0%95%EB%A6%AC
3) https://huidea.tistory.com/35