- 앙상블 학습이란
- 과반수 투표 분석
- 배깅 분석
- 랜덤 포레스트 분석
- 부스팅 분석
최종 예측은 각 훈련 모델에서 예측한 값들을 모으고 투표하여 다수결로 결정한다.
훈련 세트는 하나만 이용한다.
여러 모델에 하나의 데이터를 적용해본다.
하나의 분류 모델이지만 여러 개의 옵션을 준다.
여러 개의 샘플을 모델에 넣고 돌려 결과값을 얻어내고 다수의 결과값을 가지고 모델을 만들어감
하나의 데이터 샘플에서 몇 개를 뽑아서 샘플 데이터를 만든다.
분류 모델을 다양하게 쓸 수 있다. (DT, LR...)
DicisionTree와 관련되어있다.
트리에서 숲!
여러개의 트리들에 들어가는 요인들이 바뀐다. -> 다양한 모델 -> 통합 -> BEST
예측률은 높일 수 있으나 설명력이 약하다. 왜 그렇게 나오고 어떤 의미가 있나? - 앙상블 목적 자체가 정확도를 높이는 거다.
중요한 변수를 골라낼 수 있지만 어떤 규칙에 의해 어떻게 만들어 졌다고 골라내기 어렵다 => 통합 모델을 만들어내기 때문
데이터 반을 재활용하는 방법
가장 정확도가 높게 나오는 것은 부스팅 but 실제 시스템에서 사용하기에 복잡하고 어렵다... ( 잘못된 것에 가중치를 준다. )