1. 퍼셉트론
2. 다층 퍼셉트론(MLP)
활성화함수
-sigmoid : 0~1 사이값, 이진분류
(오차가 역전파될 때 층을 한번 거칠 때마다 sigmoid의 도함수가 곱해진다. sigmoid의 도함수의 최댓값은 0.25이기 때문에 곱해질 때마다 오차가 점점 줄어드는 기울기 소실 문제 발생 --> ReLU 사용)
-ReLU : 0보다 작은 값-->0
-softmax : 다중분류
3. 딥러닝
순전파(feed forward propagation)
손실함수 : 출력값과 정답값의 차이를 구하는 함수
최적화(optimization) : 손실 함수의 값을 최저로 만드는 과정
이때 사용되는 최적화 방법을 옵티마이저(optimizer)라고 부름.
대표적인 옵티마이저 : 경사하강법 (gradient descent)
뜻 : 모델의 매개변수의 미분값을 구한 후 그 미분값의 반대방향으로 매개변수를 조절
배치(batch) 경사 하강법 : 전체 데이터를 모두 사용해서 기울기 계산
→ 문제점 : local minima 문제, gradient vanishing 문제 발생, 학습 속도 매우 느림
확률적 경사 하강법(SGD)
배치 크기가 1인 경사 하강법
매 step에서 1개의 샘플 무작위 추출 → 그 샘플의 기울기 계산
주로 손실함수가 매우 불규칙하고, 로컬 미니멈이 많을 때 사용됨.
→ 장 : 속도 빠름
→ 문제점 : 매개변수가 지그재그로 불안정하게 변함. 모델이 최적화가 안 될 수도 있음.
미니배치 경사 하강법
모멘텀(momentum)
아다그라드(Adagrad)
알엠에스프롭 (RMSprop)
역전파 (back propagation)
--> 손실을 줄이기 위해 경사 하강법을 이용해 오차 역전파를 진행한다. 경사 하강법은 출력층부터 입력층까지 미분한 값들을 점점 곱해가면서 가중치를 수정한다.