ML [4] Logistic Regression(2)

eric9687·2022년 7월 21일
0

본 포스팅은 카이스트 산업및시스템공학과 문일철 교수님의 Introduction to Artificial Intelligence/Machine Learning(https://aai.kaist.ac.kr/xe2/courses) 강의에 대한 학습 정리입니다.

Finding θ\theta with Gradient Discent

  • θ^=argmaxθ1iNlog(P(YiXi;θ))\hat{\theta}=argmax_{\theta}\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))

    • f(θ)=1iNlog(P(YiXi;θ))f(\theta)=\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))

    • f(θ)θj=θj{1iNlog(P(YiXi;θ))}=1iNXi,j(YiP(y=1x;θ))\frac{\partial{f(\theta)}}{\partial{\theta_j}}=\frac{\partial}{\partial{\theta_j}}\{\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))\}=\sum_{1\leq{i}\leq{N}}X_{i,j}(Y_i-P(y=1|x;\theta))

  • Gradient method를 사용하려면

    • f(x)f'(x)를 위와 같이 알아야한다.
      • case of ascent: xt+1xt+hu=xt+hf(xt)f(xt)x_{t+1} \larr x_t + hu'=x_t+h\frac{f'(x_t)}{f'(x_t)}
    • 그리고, θ\theta를 계속적으로 update
    • θjt+1θjt+h{1iNlog(P(YiXi;θ))}\theta_j^{t+1}\larr\theta_j^t+h\{\sum_{1\leq{i}\leq{N}}log(P(Y_i|X_i;\theta))\}
      =θjt+hc{1iNXi,j(YieXiθt1+eXiθt)}=\theta_j^t+\frac{h}{c}\{\sum_{1\leq{i}\leq{N}}{X_{i,j}(Y_i-\frac{e^{X_i\theta^t}}{1+e^{X_i\theta^t}})}\},
    • θj0\theta_j^0은 임의적으로 골라져야한다.
  • 따라서, Gradient Discent는 Linear Regression의 "feature가 많고 matrix multiplication으로부터의 문제를 해결한다."

Naive Bayes 와 Logistic Regression

Gaussian Naive Bayes

  • 나이브 베이즈에 categorical이 아닌 continuous하다는 조건을 가질 수 있도록 Gaussian distribution의 특징을 더해준다.
  • P(Y)1idP(XiY)=πk1id1σkiCexp(12(Xiμkiσki)2)P(Y)\prod_{1\leq{i}\leq{d}}P(X_i|Y)=\pi_k\prod_{1\leq{i}\leq{d}}\frac{1}{\sigma_k^iC}exp(-\frac{1}{2}(\frac{X_i-\mu_k^i}{\sigma_k^i})^2)
  • Naive Bayes assumption에서,


  • 마지막 부분을 관찰해본다면, logistic regression에서 쓰이는 logstic function 형태와 같아졌고, 분모의 summation부분이 XθX\theta 와 같아졌음을 볼 수 있다.
  • 위의 식을 얻으려면 필요한 조건:
    • Naive assumption, same variance assumption
    • gaussian distribution for P(XY)P(X|Y)
    • Bernoulli distribution for P(Y)P(Y)

Logistic Regression

  • 필요한 조건(가정): logistic function에 피팅하겠다.
    • 파라미터 수는 오직 d+1
  • Naive bayes보다는 더 간단함을 볼 수 있다.
  • 또한, 일반적으로 더 좋은 성능을 보인다는 주장이 많다.
  • 다만, prior 정보를 담을 수 있는 naive bayes가 장점이 있을 수 있기 때문에, 무엇이 더 좋다고 결론 지을 수 없다.
profile
그러나 먼저 된 자로서 나중되고 나중 된 자로서 먼저될 자가 많으니라(마:19:30)

0개의 댓글