[ML][Model] 00. 목차 : 지도학습(회귀, 분류)과 비지도학습 모델 종류

Hyun·2022년 8월 30일
0

ML

목록 보기
3/4

지도학습에는 대표적으로 분류회귀기법이 있다.

회귀

Lasso, Ridge, ElasticNet-L1, L2규제를 적용한 선형 알고리즘, 테디노트

x1, x2, ..., xk가 어떤 조건일 때, 각 조건의 영향력 B1, B2, ..., Bk를 고려하여 해당 조건에서의 평균값을 계산하는 방식. e는 오차항으로 이론적으로 평균이 0이고 정규 분포를 띄는 값이다.
y = h(x1, x2, x3, ..., xk : B1, B2, B3, ..., Bk) + e

회귀 분석을 한다는 것은 h()함수가 무엇인지를 찾는 과정이다.
== y를 찾기 위해 각 조건에 부여되는 가중치를 찾는 과정이다.

선형 vs 비선형(대표 : 딥러닝)을 결정하는 것은 변수가 아니라 회귀 계수(우리가 추정해야 하는 미지수)

baseline : 보통 타겟 변수의 평균값
데이터의 분포의 특징에 따라 어떠한 회귀법을 사용할지 선택.
독립변수의 수, 종속 변수의 유형, 회귀선의 형태를 고려해서 선택해야한다.

평가지표 : R2 Score (결정계수), MSE(Mean Squared Error), MAE (Mean Absolute Error), RMSE (Root Mean Squared Error)

Linear Regression ( Simple Regression )

독립 변수와 종속 변수 사이에 선형 관계가 있을 경우 사용

  • 최소제곱법을 활용
  • 종속 변수 Y는 연속적, 독립 변수 X는 연속적/이산적
  • 회귀선 : 선형. Y = a*X + b
  • 평가지표 : LSM(Least Square Method)
  • 단점 : multicollinearity, autocorrelation, heteroskedasticity
  • 복수의 독립 변수의 경우 중요한 독립 변수를 선택하여 변수의 수를 줄여 훈련한다.( forward selection, backward elimination and stepwise approach )

multiple-regression

Logistic Regression

T/F인지 확률을 찾는데 사용(종속 변수Y가 이진값일 때 사용)

  • 종속 변수 Y는 이산적(이진값), 독립 변수 X는 연속적/이산적
    • 분류 문제에 사용됨
    • overfitting이나 underfitting 주의 : 중요한 변수를 모두 포함해서 없앤다.
    • 다중 공선성 제거 필요 : 독립 변수 X간에 상관관계가 있으면 안된다.
    • Y가 다중 class이면, 다항 로지스틱 회귀를 이용할 수 있다.

Polynomial Regression

y = a*x^2 + b 처럼 방정식이 다항식(곡선)이 되는 회귀법

  • 더 낮은 차수의 오차를 얻기 위해 고차 다항식을 사용할 수 있지만 overfitting을 초래할 수 있다.

Stepwise Regression :

정해진 기준에 따라 하나씩 공변수를 추가/삭제하여 회귀 모델에 적합(적용)하는 방식으로 이루어진다.

  • 정해진 기준 : Forward selection, Backward elimination
    • Forward selection : 가장 중요한 변수부터 시작하고 단계별로 변수를 추가
    • Backward elimination : 모든 변수를 적용 후, 가장 덜 중요한 변수를 제거
    • 최소 개수의 예측 변수로 최대 예측 효율 내기
    • 자동 독립 변수의 선택

ridge-regression

  • 선형 회귀 모델에 L2 Regularizaition를 더한 모델
  • data가 다중공선성을 가질 때(독립 변수간 높은 상관관계) 사용하는 기술
    • ridge는 다중공선성 문제를 shrinkage parameter λ를 통해 해결
    • 회귀 추정치에 일정 정도의 값을 추가하여 표준 오차를 줄임 : 다중공선성을 가질 때, least squares estimates (OLS, 최소 제곱 추정)이 편파적이지 않지만, 분산이 커져서 관측값이 실제 값과 많은 차이를 가지기 때문.
    • 예측 오류 : 편향(biase)나 편차(variance)로 인해 발생될 수 있다.

Lasso Regression

  • 선형 회귀 모델에 L1-Regularizaition를 더한 모델
  • 회귀 계수의 절대 크기에 불이익을 줌. panalty 인자에서 절대값을 사용
  • 선형 회귀 모델의 가변성을 줄이고 정확도를 향상

ElasticNet Regression

Ridge-regression + Lasso Regression 기법

  • 선형 회귀 모델에 L1, L2 Regularizaition를 더한 모델

Decision Trees

Decision Trees : 설명이 중요할 때 매우 유용. 분류/회귀 모두 가능


회귀 모델의 종류와 특징, DANBI
Regression 종류 및 특징, White Whale

분류 ( Classification )

baseline : 보통 타겟 변수에서 가장 빈번하게 나타나는 범주

나이브 베이즈(Naive Bayes)

로지스틱 회귀(Logistic Regression)

결정 트리(Decision Trees)

결정 트리(Decision Trees) : 설명이 중요할 때 매우 유용. 분류/회귀 모두 가능

logistic-regression

종속 변수가 범주형 데이터를 대상으로 하며, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 분류 기법으로도 볼 수 있다.

서포트 벡터 머신 ( Suppot Vector Machine, SVM )

최소 근접 ( K-Nearest Neighbor, KNN ) :

Clustering. 게으른 학습기(lazy learner)로, 데이터에서 판별함수를 학습하는 대신 train dataset을 memory에 저장할 뿐 학습하지 않는다. 가까운 K개의 점의 label을 다수결투표하여 새로 입력된 data의 label을 추론한다.

신경망(ANN)

앙상블(Ensemble)

앙상블을 통한 분류란 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 비교적 정확한 최종 예측을 도출하는 기법. 정형 데이터의 분류와 회귀 분야에서 성능이 뛰어나다.

random-forests

Boosting ML Algorithm 모델 종류

  • AdaBoost (Adaptive Boosting)
  • GBM(Gradient Boosting Machine)
  • XGBoost(eXtra Gradient Boost)
  • LightGBM (Light Gradient Boost)

0개의 댓글