지도학습

민서·2023년 8월 8일
0

지도 학습은 입력과 출력에 대한 데이터 세트가 있고, 주어진 입력으로부터 출력을 예측하고자할 때 사용한다. 분류와 회귀로 나뉜다.

분류와 회귀

분류(classification)?

  • 미리 정의된, 가능서있는 클래스 레이블 중 하나를 예측하는 것
  • 두개의 클래스를 분류하는 이진분류(yes or no), 셋 이상의 클래스로 분류하는 다중 분류로 나뉜다.
  • (eg.스팸메일인가?- 이진분류, 붓꽃데이터 분석-다중 분류)

회귀(regression)?

  • 연속적인 숫자:부동소수점수를 예측하는 것
  • 분류에 비해 출력값에 연속성이 있다.

일반화, 과대적합, 과소적합

일반화(generalization)?

  • 훈련데이터로 학습한 모델이 훈련 데이터와 특성이 같다면, 신규 데이터도 정확한 예측을 기대
  • 신규데이터(테스트 세트)를 정확히 예측할 수 있다면, 훈련세트에서 테스트 세트로 일반화 된 것
  • 모델이 적절한 복잡도를 갖도록 훈련데이터를 학습시킨 뒤 신규 데이터(테스트 세트) 정확히 예측하도록 설계하는 것이 목표

과대적합(Overfitting)?

  • 모델이 훈련 데이터에 너무 잘 적합되어 훈련 데이터에 대한 예측 정확도는 높지만, 새로운 데이터에 대한 예측 정확도가 낮아지는 현상
  • 모델이 훈련 데이터에 과도하게 민감하게 학습되어 새로운 데이터에서는 일반화 능력이 떨어짐

과소적합(Underfitting)?

  • 모델이 훈련 데이터에 너무 단순하게 적합되어 훈련 데이터에도 잘 맞지 않고, 새로운 데이터에 대해서도 성능이 낮아지는 현상
  • 모델이 훈련 데이터를 충분히 학습하지 못해 훈련 데이터에서도 정확도가 낮아짐
  • 일반적으로 모델을 잘 설계하려면 일반화가 잘 되도록 하여 새로운 데이터에서도 좋은 성능을 발휘하는 것이 목표
  • 이를 위해서는 과대적합과 과소적합 사이에서 적절한 모델 복잡성을 찾는 것이 중요
profile
실패보다 사람을 더 미치게 하는게 후회더라구요

0개의 댓글