[Logistic 회귀] Odds?

신현호·2022년 5월 3일
0

Machine Learning

목록 보기
5/8

두 포스팅에 걸쳐 Logistic 회귀에 대해 다루어보려고 합니다.

Logistic 회귀는 회귀를 이용하여 분류 문제를 해결하는 방법론인데요.
이를 이해하려면 먼저 Odds 에 대해 이해해야 합니다.

Odds?

Odds(오즈)는 확률에 관한 용어로, 어떤 사건이 일어날 확률을 pp라고 하면 이에 대한 Odds 는 다음과 같이 정의됩니다.

Odds=p1p\qquad Odds = \dfrac{p}{1-p}

사건이 일어날 확률 pp 를 사건이 일어나지 않을 확률 (1p)(1-p) 로 나누어주었죠.
즉, 사건이 일어나지 않을 확률에 대한 일어날 확률인 셈입니다.

그러나 이를 바탕으로 Odds 의 직관적 의미를 곰곰이 생각해보아도 명쾌한 해답을 얻기는 쉽지 않습니다.
직관적인걸로만 따지면

사건이 일어나는 경우의 수전체 경우의 수\qquad \dfrac{사건이 \space 일어나는 \space 경우의 \space 수}{전체 \space 경우의 \space 수}

로 정의되는 확률을 따라가기가 쉽지 않죠.

그렇다면 식도 복잡하고 직관적이지도 않은 Odds 라는 개념을 왜 사용하는 걸까요?


[0, 1] \rightarrow [0, \infty)

Odds 는 0 이상 1 이하의 값을 가질 수 있는 확률을 0 이상의 모든 실수에 일대일로 대응시킵니다.

특히 확률의 중심이라고 할 수 있는 12\dfrac{1}{2} 을 곱하기의 중심이라고 할 수 있는 11 로 대응시키죠.

그런데 이렇게 대응시키고 보니 무언가 아쉬움이 남습니다.

원래 pp 에서는 [0,0.5][0, 0.5][0.5,1][0.5, 1] 의 길이가 서로 같았는데 이 둘을 각각 대응시키고 보니

 p p1p\qquad\enspace\enspace\space p \qquad\enspace\space \dfrac{p}{1-p}

[0,0.5]  [0,1]\qquad [0, 0.5] \space \rightarrow \space [0, 1]
[0.5,1]  [1,)\qquad [0.5, 1] \space \rightarrow \space [1, \infty)

가 되어 둘의 길이가 서로 달라졌기 때문입니다.

log 를 씌워보자

비대칭 문제를 해결하기 위해 다음과 같이 생각해볼 수 있습니다.

[0,1][0, 1][1,)[1, \infty) 를 서로 대칭이 되는 구간에 대응시키는 일대일 함수는 없을까?

만약 이런 함수가 있다면 Odds 를 이 함수에 넣으면 되기 때문이지요.

이때 머리를 스쳐가는 함수가 하나 있습니다.

바로 로그함수입니다.
로그함수는 [0,1][0, 1](,0](-\infty, 0] 으로, [1,)[1, \infty)[0,)[0, \infty) 로 대응시키죠. (여기서는 특별히 밑이 ee인 로그를 사용하였습니다)

 p p1pln(p1p)\qquad\enspace\enspace\space p \qquad\enspace\space \dfrac{p}{1-p} \qquad \ln(\dfrac{p}{1-p})

[0,0.5]  [0,1]  (,0]\qquad [0, 0.5] \space \rightarrow \space [0, 1] \enspace \space \rightarrow \space (-\infty, 0]
[0.5,1]  [1,)  [0,)\qquad [0.5, 1] \space \rightarrow \space [1, \infty) \space \rightarrow \space [0, \infty)

두 번의 대응을 마치고 나니 [0,1][0, 1] 의 값을 가질 수 있는 확률이 (,)(-\infty, \infty) 로 고르게 대응되었습니다.

확률에서 가장 작은 값인 0은 -\infty 로 대응되었고 확률에서 가장 큰 값인 1은 \infty 로 대응되었죠.

또한 확률에서 중앙에 해당하는 0.5는 덧셈의 중심에 해당하는 0으로 대응되었습니다.


이번 포스팅에서는 Odds 에 대해 알아보았습니다.

더불어 ln(Odds)\ln(Odds)[0,1][0, 1](,)(-\infty, \infty) 로 고르게 대응시킨다는 것을 살펴보았는데요.

다음 시간에는 오늘 다룬 내용을 바탕으로 Logistic 회귀에 대해 본격적으로 알아보겠습니다.

감사합니다.


다음 포스팅
https://velog.io/@shh0422/Logistic-%ED%9A%8C%EA%B7%80-Logistic-%ED%9A%8C%EA%B7%80

profile
수학요정니모

0개의 댓글