Logistic Regression

TaeWoo Lee / Kris·2021년 12월 19일

Code States [AI_09] Section2

목록 보기

4/12

회귀문제에서는 보통 타겟 변수의 평균값을 기준모델로 사용
분류문제에서는 보통 타겟 변수에서 가장 빈번하게 나타나는 범주를 기준모델로 설정
시계열(time-series) 데이터는 보통 어떤 시점을 기준으로 이전 시간의 데이터가 기준모델
분류 평가지표(evaluation metrics)
- 정확도(Accuracy) 는 분류문제에서 사용하는 평가지표
- Accuracy = $\frac{올바르게 예측한 수} {전체 예측 수}$ = $\frac{TP + TN} {P + N}$
- Proportion of correct classifications

로지스틱회귀를 사용하면 타겟변수의 범주로 0과 1을 사용할 수 있으며 각 범주의 예측 확률값을 얻을 수 있음
로지스틱 회귀모델은 다음 식으로 표현할 수 있음
$\large P(X)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p})}}}$
$0 \leq P(X) \leq 1$
결과적으로 관측치가 특정 클래스에 속할 확률값으로 계산
분류문제에서는 확률값을 사용하여 분류를 하는데 예를들어 확률값이 정해진 기준값 보다 크면 1 아니면 0 이라고 예측

로지스틱회귀의 계수는 비선형 함수 내에 있어서 직관적으로 해석하기가 어려운데 오즈(Odds) 를 사용하면 선형결합 형태로 변환 가능해 보다 쉽게 해석이 가능
오즈는 실패확률에 대한 성공확률의 비 인데 예를들어 odds = 4 이면 성공확률이 실패확률의 4배 라는 뜻
분류문제에서는 클래스 1 확률에 대한 클래스 0 확률의 비라고 해석
$Odds = \large \frac{p}{1-p}$ ,
p = 성공확률, 1-p = 실패확률
p = 1 일때 odds = $\infty$
p = 0 일때 odds = 0
$\large ln(Odds) = ln(\frac{p}{1-p}) = ln(\frac{\frac {1}{1+e^{-(\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p})}}}{1 - \frac {1}{1+e^{-(\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p})}}}) = \normalsize \beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{p}X_{p}$
이렇게 오즈에 로그를 취해 변환하는 것을 로짓변환(Logit transformation) 이라고 함
특성 X의 증가에 따라 로짓(ln(odds))가 얼마나 증가(or감소)했다고 해석
기존 로지스틱형태의 y 값은 0~1의 범위를 가졌다면 로짓은 - ∞ ~ ∞ 범위를 가지게 됨

일단 저지르자! 그리고 해결하자!