Machine Learning
1. 언더 샘플링(Under sampling)
✂️ 다수 범주의 데이터를 소수 범주의 데이터 수에 맞게 샘플링하는 것이다. (다수의 데이터를 줄이는 방법)
👎 under sampling을 할 경우, 일반적으로 recall값이 낮아지기 때문에 over sampling을 주로 사용한다.
예시) 1의 값을 가지는 데이터가 492인 경우, 0인 데이터를 랜덤하게 492개 추출하면 언더샘플링에 해당한다.
2. 오버 샘플링(Over sampling)
- 소수 범주의 데이터를 다수 범주의 데이터 수에 맞게 늘리는 방식이다.
🔬 SMOTE (Synthetic Minority Over-sampling Technique)
- 합성 소수자 오버샘플링 기법
- 소수 데이터의 sample에 KNN을 적용 후, 샘플과 이웃간의 사이에 random하게 데이터 생성한다.
Deep-Learning
1. Activation function
📕 sigmoid와 tanh
tanh 함수의 기울기가 더 가파르므로, 상대적으로 sigmoid보다 값을 빠르게 처리한다.
📙 ndim
차원의 수를 확인시켜주는 함수이다.
📒 deep-learning 프로세스 예시
CNN > Sigmoid OR ReLU > Entropy > Results
📗 Back-propagation
- 역전파 (back-propagation)에서는 미분을 활용한다.
- 역전파 과정에서 기울기 소실(Gradient Vanishing)이 발생한다.
- 순전파 과정에서는 활성화 함수를 사용한다 (Sigmoid 등)
- 역전파는 순전파의 검산이다.
📘 기울기 폭주 (Gradient Exploding)
- 기울기 소실의 반댓말
- 역전파 과정에서 가중치가 점차 커지다가 비정상적으로 큰 수치로 업데이트되는 것을 의미함.
n. 통계 관련 복습
📚 1종 오류와 2종 오류
1종 오류는 우리가 성급할 때 저지르는 오류고, 2종 오류는 우리가 너무 조심성이 많아서 저지르는 오류