(7-5) 딥러닝 기초

Yongjoo Lee·2021년 1월 25일

Programmers 인공지능 데브코스

목록 보기

31/33

심층학습(deep learning)
- 다층 퍼셉트론에 은닉층을 여러 개 추가하면 깊은 신경망이 됨
- 심층학습은 깊은 신경망의 학습
- 심층학습은 새로운 응용을 창출하고 인공지능 제품의 성능을 획기적으로 향상

👉 현대 기계학습을 주도

📌 경사 소멸 문제(gradient vanishing problem)

역전파 과정에서 활성함수에 따라 미분에 의해 gradient 값이 소멸되는 문제

👉 활성함수로 로지스틱 시그모이드나 하이퍼볼릭 탄젠트 함수를 사용할 경우 문제 발생 가능!

혁신적 알고리즘 등장
- 합성곱 신경망(Convolutional Neural Networks, CNN) 구조
  - 부분 연결과 가중치 공유를 통해 효율적인 신경망 학습 구조 제공
- ReLU 활성함수
  - 경사 소멸 문제 해결
- 다양한 규제 기법
  - 과잉 적합 방지
- 층별 예비학습(pretraining) 기법
값싼 GPGPU 등장
- *GPGPU(General-Purpose computing on Graphics Processing Units, GPU 상의 범용 계산)
학습 데이터 양과 질의 향상

기계학습의 새로운 전환
- 과거 기계학습 - 전통적인 다층 퍼셉트론
  - 사람이 수작업으로 특징을 선택하거나 추출하여 신경망에 입력
- 현대 기계학습 - 심층학습
  - 특징 벡터를 신경망에 입력 (종단간 학습)
    
    👉 학습에 의해 자동적으로 데이터로부터 특징 추출 → 표현학습(representation learning)
깊은 신경망의 표현학습 (또는 특징학습 (feature learning)
- 낮은 단계의 은닉층 : 선이나 모서리와 같은 간단한 (저급) 특징 추출
- 높은 단계의 은닉층 : 추상적인 형태의 복잡한 (고급) 특징 추출

👉 표현 학습이 강력해짐에 따라 기존 응용에서 획기적인 성능 향상

깊은 다층 퍼셉트론(DMLP 혹은 deep MLP) 구조
- 입력 ( $d+1$ 차원의 특징벡터)과 출력 ( $c$ 개 분류)
- $L-1$ 개의 은닉층 (입력층은 0번째 은닉층, 출력층은 $L$ 번째 은닉층으로 간주)
  - $l$ 번째 은닉층의 노드 수를 $n_l$ 로 표기
DMLP의 가중치 행렬
- $l-1$ 번째 층과 $l$ 번째 층을 연결하는 가중치는 총 $(n_{l-1}+1)n_l$ 개
DMLP의 동작
- $\bold{o=f(x)=f_L(\cdots f_2(f_1(x)))}, L\ge 4$
- 전방 계산에서는 행렬곱 후 비선형 함수 통과

DMLP 학습은 기존 MLP 학습과 유사

(DMLP는 경사도 계산과 가중치 갱신을 더 많은 층에 걸쳐 수행)

DMLP를 위한 미니 배치 스토캐스틱 경사 하강법
1. 훈련집합에서 샘플을 무작위로 뽑아 미니배치 생성
2. 전방 계산
3. 오류역전파 수행
  1. 그래디언트 계산
  2. 가중치 갱신
4. epoch 만큼 반복
주요 알고리즘의 개선
- 알고리즘: 퍼셉트론 → 다층 퍼셉트론 → 깊은 다층 퍼셉트론
- 활성함수: 계단함수 → 시그모이드 함수 → ReLU와 변형들
- 목적함수: 평균제곱오차 → 평균제곱오차 → 교차엔트로피 또는 로그우도(출력값이 확률 형태)

하나씩 정리하는 개발공부로그입니다.