
Cost/Loss function: data set과 가설함수(h(x))의 오차를 계산하는 함수, 궁극적인 목표는 Global Minimum을 찾는 것
Mean-square Cost Function: 전체 Cost의 평균을 구하는 식(이 기준으로 param을 최적화 시켜야함)!
최적화를 시키는 방법 Gradient 사용
gradient: 편미분한 값을 vector로 표현
Gradient Descent Algorithm 방식:

1차 미분계수를 이용해 함수의 최솟값을 찾아가는 iterative한 방법

를 효과적으로 구하기 위해 Loss Function의 값을 최소화 하기 위해 기울기 반대 방향으로 일정 크기만큼 이동하는 것을 반복, 의 변화식은 아래와 같다

Grdient Descent: Stochastic Gradient Descent: Mini-batch SGD: SGD vs GDGD Time steps: dataset의 batch에서 Epoch이 한번씩 발생
SGD Time steps: dataset의 batch와 epoch의 횟수가 맞지않다.
참고: https://mangkyu.tistory.com/62
https://angeloyeo.github.io/2020/08/16/gradient_descent.html
https://deeppago.tistory.com/m/67