Cost/Loss function
: data set과 가설함수(h(x))의 오차를 계산하는 함수, 궁극적인 목표는 Global Minimum을 찾는 것
Mean-square Cost Function
: 전체 Cost의 평균을 구하는 식(이 기준으로 param을 최적화 시켜야함)!
최적화를 시키는 방법 Gradient
사용
gradient: 편미분한 값을 vector로 표현
Gradient Descent Algorithm 방식:
1차 미분계수를 이용해 함수의 최솟값을 찾아가는 iterative한 방법
를 효과적으로 구하기 위해 Loss Function의 값을 최소화 하기 위해 기울기 반대 방향으로 일정 크기만큼 이동하는 것을 반복, 의 변화식은 아래와 같다
Grdient Descent
: Stochastic Gradient Descent
: Mini-batch SGD
: SGD vs GD
GD Time steps
: dataset의 batch에서 Epoch이 한번씩 발생SGD Time steps
: dataset의 batch와 epoch의 횟수가 맞지않다.참고: https://mangkyu.tistory.com/62
https://angeloyeo.github.io/2020/08/16/gradient_descent.html
https://deeppago.tistory.com/m/67