6\. 런칭(디플로잉), 모니터링, 시스템 유지보수
> 1. 이진 분류 모형 훈련 2. 성능 측정 3. 다중 분류 모형 훈련 4. 에러 분석
6\. 로지스틱 회귀
7\. 불안정성
• 먼저 훈련 세트를 하나의 특성 k의 임곗값 𝑡𝑘 를 사용해 두 개의 subset으로 나눈다• 다음, 가장 순수한( gini가 0에 가까운 ) subset으로 나눌 수 있는 (k, 𝑡𝑘 ) 짝을 찾는다• 따라서, CART 알고리즘이 최소화
5\. 그래디언트 부스팅 대표 3인방 - XGB, LGB, CatGB
• 가장 인기 있는 차원 축소 알고리즘• 데이터에 가장 가까운 초평면을 해석적으로 정의한 후, 그 평면에 데이터를 투영시키는 방법• PCA는 훈련 세트에서 분산이 최대인 축을 찾음1\. 위 그림에서는 실선2\. 또한 첫 번째
레이블이 없는 데이터를 학습하는 알고리즘• 우리가 사용하는 데이터의 대부분은 레이블(정답)이 없다• 정답이 없는 데이터는 지도학습이 불가능하다• 즉, 강아지와 고양이의 구분조차 처음에는 사람이 직접 라벨링을 해야 하는데, 시간과 돈