시작하기 전에

분류기법 종류 확인하기 질적 반응변수를 예측하는데 사용될 수 있는 분류기는 아래와 같은 기법이 있다.
  • 로지스틱 회귀(logistic regression)
  • 선형판별분석(linear discriminant analysis)
  • K-최근접이웃(k-nearest neighbor hood)
  • 일반화가법모델(generalized additive model)
  • 트리(tree)
  • 랜덤포레스트(random forest)
  • 부스팅(boosting)
  • 서포트 벡터 머신(support vector machine)

LDA

LDA 분류기는 개별 클래스 내의 관측치들이 클래스 특정(클래스 별) 평균 벡터와 클래스 공통의 분산 σ2\sigma^{2}을 갖는 정규분포를 따른다는 가정 하에 이 파라미터에 대한 추정값을 베이즈 분류기에 대입하여 얻는다.
즉, 개별 클래스를 분리해서 생각하고 베이즈 정리를 사용하여 Pr(YX)Pr(Y|X) 근사값을 얻는다. 그리고 각 클래스에 정규 분포를 사용하면 linear 혹은 quadratic discriminant analysis가 된다.
참고. 정사영을 이용한 LDA 유도

LDA가 필요한 이유

  • 클래스들이 잘 분리될 때 로지스틱 회귀모델에 대한 모수 추정치는 아주 불안정하다. 선형 판별 분석은 이런 문제가 없다.
  • 만약 n이 작고 각 클래스에서 설명변수 X의 분포가 근사적으로 정규분포이면 선형판별모델은 로지스틱 회귀모델보다 더 안정적이다.
  • 선형판별분석은 반응변수의 클래스 수가 2보다 클 때 일반적으로 사용된다.

QDA

profile
앱노멀한 삶을 꿈꾸며

0개의 댓글