[질문]
logit transformation 에서 확률 (특정 경우/전체경우) 가 아닌 odds (특정확률/다른확률) 을 사용하는 이유는 무엇인가요?
직관적으로는 그냥 확률이 더 이해하기 쉬운데 odds를 사용하는 이유가 있을 것 같아서요. 추측한 이유는 logit transformation 을 이용해서 선형으로 바꾸기 위해서 입니다.
확률이 아니라 odds를 사용하는 이유 알아봤습니다! odds가 확률에 비해 X factor가 미치는 영향력이 좀 더 크기 때문에 유리한 점이 있어서 그렇다고 하네요~
[질문]
logistic regression 은 회귀계수 직관석 해석이 어렵다고 하셨는데요. 후에 코드를 보면 logistic.coef_로 직관적이게 나오는데 이건 이미 logit transformation이 이루어진건가요? 아니라면 이게 왜 직관적이지 않다는 건가요?
오즈 수식을 보면 회귀 계수 자체가 odds안에 숨겨지게 된다. 그래서 직관적 해석이 어렵다고 하신듯. 따라서 로짓 변환 하기 전에 한번 봐야한다.
)간단히 얘기하자면, odds가 특정 x factor에 대한 결과값을 보는 것이기 때문에, 카테고리 적으로 다른 결과값과 비슷할 확률이 probabality보다 높다는 얘기인 것 같아요
제가 이해했던거는 로지스틱회귀가 분류를 위한 것이기 때문인 것 같아요. 선형회귀는 연속형 범수, 말씀하신 집값 예측 같은 것에 사용하기 위한 것이지만 로지스틱 회귀는 분류니까요… 로지스틱 회귀는 결과적으로 0을 0으로 1을 1로 보내야 하는게 목표니까요, 그 과정에서 오즈비라는 지표를 활용해서 회귀를 하는 것이 좋겠다!고 통계학자들이 결론을 낸 거 아닐까 싶어요..
) 감사합니다 :) 분류를 위한거라서 0과1 로 양극화 하기 위해 그렇다는 말씀이시죠!
오즈비를 로지스틱 회귀에 사용하기 전에 여러 지표들을 통계학자들이 찾아보았고 결과적으로 위에 말씀주신 것처럼 X factor 영향력이 제일 높았던 오즈비를 선택하지 않았을까 싶어요.. ㅎㅎ
https://www.theanalysisfactor.com/why-use-odds-ratios/
[질문] 특성 값을 표준화시켰는데, logistic regression이라서 진행한건가요? (linear는..?)
리니어도 표준화 시키기도 한다. 그런데 만약 리니어에서 표준화를 시켜버리면 해석이 굉장히 복잡해짐 예를 들어 Price를 표준화 해서 0~1사이로 바꾸면 나중에 price해석할때 다시 바꿔야 해서 복잡
분류의 경우 해석의 문제가 없다. 그 클래스에 해당하는지만 살펴보면 되므로.
🐹
건강을 위한 스트레칭은 못했다.. 너무 바쁜 하루였다고 한다ㅎ. 그리고 과제 하느라 저녁을 못챙겨 먹었다!! 근데 점심을 너무 과식해서 가끔은 위장을 쉬어주는 것도 괜찮은 것 같다. 항상 소화시키느라 고생하는 내 위장...
오늘 내용도 역시 쉽지만은 않았다. 로지스틱회귀는 컴공 전공으로 들어서 조금은 아는 내용인데, (AI분야에 관심이 생겼을 당시 컴공 4학년 전공인 머신러닝을 신청해서 들었다. 인문대생의 패기..) 이번에 다시 해보니깐 생각보다 더 복잡하고, 기본기가 많이 필요하다는 것을 느꼈다. 통계든 수학이든 바탕 지식이 부족하니 배우는게 조금 버겁긴하지만 할만은 하다.! 그래도 열심히 해보자!! 힘!