앙상블(Ensemble)
- 하나의 모델을 쓰는 대신, 수많은 모델들을 만들고 이 모델들의 예측을 합쳐서 종합적인 예측을 하는 기법
The Elements of Statistical Learning :
"결정 트리는 이상적인 머신 러닝 모델이 되기 힘든 한가지 특징을 갖는다. 바로 부정확성이다"
→ 결정 트리를 응용하면 성능이 좋은 다른 모델을 만들 수 있다.
랜덤 포레스트
- 트리 모델들을 임의로 많이 만들어서 다수결 투표로 결과를 종합하는 알고리즘
Bagging - Bootstrapping

- 갖고 있는 데이터 셋으로 다른 데이터 셋을 만들어내는 방법
- 모든 모델을 정확히 똑같은 데이터 셋으로 학습시키면 결과 다양성이 떨어질 수 있다.
- 이러한 문제를 해결하기 위해, 각 모델을 임의로 만들어준 Bootstrap 데이터 셋으로 학습시켜준다.
- bagging : bootstrap 데이터 셋을 만들어내고, 모델들의 결정을 종합해서 예측을 하는 기법
Bagging을 이용한 랜덤 포레스트
- 속성 중 k개(2~4개)를 임의로 선정한 뒤 불순도를 계산하여 더 좋은 속성으로 root 노드의 질문을 정한다.
- 이후, 높이가 h일 때 까지 똑같이 속성 중 k개를 정하고 불순도를 계산하여 더 좋은 속성의 질문을 노드로 정한다.
- 위의 과정을 n번 반복하면 n개의 결정 트리가 생성되고, 이러한 n개의 결정 트리의 예측을 다수결 투표로 종합하여 결정한다.
본 포스트는 코드잇 강의를 공부하며 정리한 내용입니다! 자세한 설명은 "코드잇 머신러닝 강의를 참고해주세요!
+) 코드잇 강의 바로가기