밑바닥부터 시작하는 딥러닝 - 5

Shin·2022년 5월 25일

Machine Learning

목록 보기

6/6

Chapter 08 딥러닝

더 깊게

여기에서 사용하는 합성곱 계층은 모두 3X3 크기의 작은 필터로, 층이 깊어지면서 채널 수가 더 늘어나는 것이 특징이다
또 그림과 같이 풀링 계층을 추가하여 중간 데이터의 공간 크기를 점차 줄여간다
그리고 마지막 단의 완전연결 계층에서는 드롭아웃 계층을 사용한다

가중치 초깃값을 He 초깃값을 사용하고, 가중치 매개변수 갱신에는 Adam을 이용한다
이 신경망은 다음과 같은 특징을 가진다

3x3의 작은 필터를 사용한 합성곱 계층
활성화 함수는 ReLU
완전연결 계층 뒤에 드롭아웃 계층 사용
Adam을 사용해 최적화
가중치 초깃값은 'He 초깃값'

사진을 보면 알 수 있듯이 인간도 판단하기 어려운 이미지다

이번 심층 CNN은 정확도가 높고, 잘못 인식한 이미지들도 인간과 비슷한 인식 오류를 저지르고 있다.
이런 점에서 심층 CNN의 잠재력이 크다는 걸 새삼 느낄 수 있다

'데이터 확장'은 입력 이미지(훈련 이미지)를 알고리즘을 동원해 '인위적'으로 확장한다
위 그림과 같이 입력 이미지를 회전하거나 세로로 이동하는 등 미세한 변화를 주어 이미지의 개수를 늘린다
이는 데이터가 몇 개 없을 때 효과적인 수단이다

예를 들어 이미지 일부를 잘라내는 crop이나 좌우를 뒤집는 flip 등이 있다
일반적인 이미지에는 밝기 등 외형 변화나 확대, 축소 등의 스케일 변화도 효과적이다.

층을 깊게하는 이유

최근 이미지 인식 대회에서 상위를 차지한 기법 대부분은 딥러닝 기반이며, 그 경향은 신경망을 더 깊게 만드는 방향으로 가고 있다

층을 깊게 하는 이점 중 하나는 신경망의 매개변수 수가 줄어든다
층을 깊게 한 신경망은 깊지 않은 경우보다 적은 매개변수로 같은 수준의 표현력을 달성한다
합성곱 연산에서의 필터 크기에 주목해 생각해보면 쉽게 이해할 수 있다
위 예에서 각각의 출력 노드는 입력 데이터의 5X5 크기 영역에서 계산된다

다음은 3X3의 합성곱 연산을 2회 반복하는 경우다
이 경우 출력 노드 하나는 중간 데이터의 3X3 영역에서 계산된다
중간 영역은 5X5 크기의 영역에서 계산되어 나온다

5X5의 합성곱 연산 1회는 3X3의 합성곱 연산을 2회 수행하여 대체할 수 있다
게다가 전자의 매개변수가 25개인 반면, 후자는 총 18개이며, 층을 반복할수록 적어진다

학습의 효율성도 층을 깊게 하는 것의 이점이다
층을 깊게 함으로써 학습 데이터의 양을 줄여 학습을 고속으로 수행할 수 있다
"CNN 시각화하기"에서 합성곱 계층에서는 에지 등의 단순한 패턴에 뉴런이 반응하고 층이 깊어지면서 텍스처와 사물의 일부와 같이 점차 더 복잡한 것에 반응한다고 했다

'개'를 인식하는 문제를 예로 들어보면, 얕은 신경망에서는 합성곱 계층은 개의 특징 대부분을 한 번에 '이해'해야 한다
견종도 다양하고 어느 각도에서 찍은 사진이냐 따라 완전히 다르게 보일 수 있다
그래서 개의 특징을 이해하려면 변화가 풍부하고 많은 학습 데이터가 필요하고, 결과적으로 학습이 오래 걸린다

그러나 신경망을 깊게 하면 학습해야 할 문제를 계층적으로 분해할 수 있다
예를 들어 처음 층은 에지 학습에 전념하여 적은 학습 데이터로 효율적으로 학습할 수 있다
개가 등장하는 이미지보다 에지를 포함한 이미지는 많고, 에지의 패턴은 개라는 패턴보다 구조가 간단하다

또, 층을 깊게 하면 정보를 계층적으로 전달할 수 있다
예를 들어 에지를 추출한 층의 다음 층은 에지 정보를 쓸 수 있고, 더 고도의 패턴을 학습하리라 기대할 수 있다
즉, 층을 깊이 함으로써 각 층이 학습해야 할 문제를 '풀기 쉬운 단순한 문제'로 분해할 수 있어 효율적으로 학습할 수 있다

딥러닝의 초기 역사

'이미지넷'은 100만 장이 넘는 이미지를 담고 있는 데이텨셋이다
매년 열리는 ILSVRC는 이 거대한 데이터셋을 사용해 자웅을 겨루는 이미지 인식 기술 대회다
대회에는 시험 항목이 몇 가지 있는데, 그중 하나가 분류다
분류 부문에서 1000개의 클래스를 제대로 분류하는지를 겨룬다

여기서 주목할 점은 2012년 이후 선두는 항상 딥러닝 방식이라는 것이다
실제로 2012년 AlexNet는 오류율을 크게 낮췄고, 그 후 딥러닝을 활용한 기법이 개선되어왔다
특히 2015년에는 150층이 넘는 심층 신경망인 ResNet이 오류율을 3.5%까지 낮췄다
이는 일반적인 인간의 인식 능력을 넘어섰다고 한다

VVG

VGG는 합성곱 계층과 풀링 계층으로 구성되는 '기본적'인 CNN이다
다만, 비중 있는 층을 모두 16층(혹은 19층)으로 심화한 게 특징이다

VGG에서 주목할 점은 3X3의 작은 필터를 사용한 합성곱 계층을 연속으로 거친다는 것이다
그림에서 보듯 합성곱 계층을 2~4회 연속으로 풀링 계층을 두어 크기를 절반으로 줄이는 처리를 반복한다
그리고 마지막에는 완전연결 계층을 통과시켜 결과를 출력한다

GoogleNet

GoogleNet의 구성은 지금까지 본 CNN과 다르지 않지만, 세로 방향 깊이뿐 아니라 가로 방향도 깊다

GoogleNet의 가로 방향에는 '폭'이 있는데, 이를 인셉션 구조라 하며, 위와 같은 기반 구조를 갖는다
인셉션 구조는 크기가 다른 필터(와 풀링)를 여러 개 적용하여 그 결과를 결합한다
이 인셉션 구조를 하나의 빌딩 블록(구성요소)으로 사용하는 것이 GoogleNet의 특징이다
또 GoogleNet에서는 1X1 크기의 필터를 사용한 합성곱 계층을 많은 곳에서 사용한다
이 1X1의 합성곱 연산은 채널 쪽으로 크기를 줄이는 것으로, 매개변수 제거와 고속 처리에 기여한다

ResNet

딥러닝의 학습에서는 층이 지나치게 깊으면 학습이 잘 되지 않고, 오히려 성능이 떨어지는 경우가 많다
ResNet에서는 그런 문제를 해결하기 위해 '스킵 연결'을 도입한다
이 구조가 층의 깊이에 비례해 성능을 향상시킬 수 있게 한 핵심이다

스킵 연결이란 입력 데이터를 합성곱 계층을 건너뛰어 출력에 바로 더하는 구조를 말한다
위 그림에서 입력 x를 연속한 두 합성곱 계층을 건너뛰어 출력에 바로 연결한다
이 단축 경로가 없었다면 두 합성곱 계층의 출력이 F(x)가 되나, 스킵 연결로 인해 F(x) + x가 된다
스킵 연결은 층이 깊어져도 학습을 효율적으로 할 수 있도록 해주는데, 이는 역전파 때 스킵 연결이 신호 감쇠를 막아주기 때문이다

ResNet은 앞에 VGG 신경망을 기반으로 스킵 연결을 도입하여 층을 깊게 했다
ResNet은 합성곱 계층을 2개 층마다 건너뛰면서 층을 깊게 한다
실험 결과 150층 이상으로 해도 정확도가 오르는 모습을 확인할 수 있다

더 빠르게(딥러닝 고속화)

과거에는 CPU가 딥러닝 연산을 수행했지만, 부족한 게 현실이다
실제로 주위를 둘러보면 딥러닝 프레임워크 대부분은 GPU를 활용해 대량의 연산을 고속으로 처리한다
최근 프레임워크에서는 복수의 GPU와 여러 기기로 분산 수행하기도 한다

다음은 AlexNet의 forward 처리에서 각 층이 소비하는 시간을 원 그래프로 보여준다
그림에서 보듯 AlexNet에서는 오랜 시간을 합성곱 계층에서 소요한다
실제로 처리 시간을 다 더하면 GPU에서는 95%, CPU에서는 89%까지 달한다
그래서 합성곱 계층에서 이뤄지는 연산을 어떻게 고속으로 효율적으로 하느냐가 딥러닝의 과제다

GPU를 활용한 고속화

GPU는 병렬 수치 연산을 고속으로 처리할 수 있다
그 압도적인 힘을 다양한 용도에 활용하자는 것이 'GPU 컴퓨팅'의 목적이다

딥러닝에서는 대량의 단일 곱셈-누산(또는 큰 행렬의 곱)을 수행해야 한다
이런 대량 병렬 연산은 CPU의 특기다(반대로 CPU는 연속적인 복잡한 계싼을 잘 처리한다)

그림과 같이 CPU에서는 40여 일이나 걸리지만 CPU로는 6일까지 단축되었다
또한 'cuDNN'이라는 딥러닝에 최적화된 라이브러라를 이용하면 더욱 빨라짐을 확인할 수 있다

CPU는 엔비디아와 AMD, 두 회사가 제공하지만 아직까지는 엔비디아를 주로 사용한다
엔비디아는 CPU 컴퓨팅용 통합 개발 환경인 'CUDA를 사용하기 때문이다
cuDNN은 CUDA 위에서 동작하는 라이브러리로, 딥러닝에 최적화된 함수 등이 구현되어 있다

분산 학습

CPU로 연산을 가속해도, 심층 신경망에서는 학습에 며칠 혹은 몇주가 걸리기도 한다
뛰어난 신경망을 만들려면 시험을 수없이 반복하고, 그러려면 1회 학습 시간을 단축해야 한다
그래서 딥러닝 학습을 수평 확장하자는 아이디어(즉, 분산학습)가 중요해진다

딥러닝 계산을 더욱 고속화하고자 다수의 CPU와 기기로 계산을 분산하기도 한다
최근에는 다수의 CPU와 컴퓨터를 이용한 분산 학습을 지원한 프레임워크들이 나타나고 있다
그 중 구글의 텐서플로와 MS의 CNTK는 분산 학습에 역점을 두고 개발했다
거대한 데이터센터의 저지연, 고처리량 네트워크 위에서 수행하는 분산 학습은 놀라운 효과를 보인다

위에서 보듯 GPU 수가 늘어남에 따라 학습도 빨라진다
실제로 여러 기기를 연결하여 GPU를 100개까지 사용하니 하나일 때보다 56배가 빨라졌다
분산 학습에서도 '계산을 어떻게 분산시키느냐'는 몹시 어려운 문제다
통신과 데이터 동기화 등, 쉽게 해결할 수 없는 문제들은 뛰어난 프레임워크에 맡기는 것이 좋다

연산 정밀도와 비트 줄이기

계산 능력 외에도 메모리 용량과 버스 대역폭 등이 딥러닝 고소고하에 병목이 될 수 있다
메모리 용량 면에서는 대량의 가중치 매개변수와 중간 데이터를 메모리에 저장해야 한다
버스 대역폭 면에서는 GPU의 버스를 흐르는 데이터가 많아져 한계를 넘어서면 병목이 발생한다
이런 경우를 고려하면 네트워크로 주고받는 데이터의 비트수는 최소로 만드는 것이 바람직하다

컴퓨터는 주로 64비트나 32비트 부동소수점 수를 사용해 실수를 표현한다
많은 비트를 사용하면 오차는 줄지만, 그만큼 계산에 드는 비용과 메모리 사용량이 늘고 버스 대역폭에 부담을 준다

다행히 딥러닝은 높은 수치 정밀도를 요구하진 않는다
이는 신경망의 중요한 성질 중 하나로, 신경망의 견고성에 따른 특성이다
예를 들어 입력 이미지에 노이즈가 조금 섞여 있어도 출력 결과가 잘 달라지지 않는다

컴퓨터에서 실수를 '32비트 단정밀도'와 '64비트 배정밀도' 포맷이 있지만, 딥러닝은 '16비트 반정밀도'를 사용해도 문제가 벗다고 알려져 있다

파이썬에서는 일반적으로 64비트 배정밀도 부동소수점 수를 사용한다
하지만 넘파이는 16비트 반정밀도 부동소수점도 지원하며, 이를 사용해도 정확도가 떨어지지 않는다 (단, 16비트라는 틀이 있을 뿐 연산 자체는 16비트로 수행하지 않는다)

딥러닝의 비트 수를 줄이는 연구가 몇 가지 진행되고 있다
최근에는 가중치와 중간 데이터를 1비트로 표현하는 < Binarized Neural Networks >라는 방법도 등장했다
딥러닝을 고속화하기 위해 비트를 줄이는 기술은 앞으로 주시해야 할 분야이며, 특히 딥러닝을 임베디드용으로 이용할 때 중요한 주제다

딥러닝의 활용

사물 검출

사물 검출은 이미지 속 담긴 사물의 위치와 종류(클래스)를 알아내는 기술이다
그림에서 보듯 사물 검출은 사물 인식보다 어려운 문제다
사물 인식은 이미지 전체를 대상으로 하지만, 사물 검출에서는 이미지 어딘가에 있을 사물의 위치까지 알아내야 한다
게다가 한 이미지에 여러 사물이 존재할 수도 있다

CNN을 이용한 사물 검출을 수행하는 방식은 몇 가지가 있는데, 그중에서도 R-CNN이 유명하다

R-CNN 그림에서 주목할 곳은 '2. 후보 영역 추출'과 '3. CNN 특징 계산'이다
먼저 사물이 위치한 영역을 찾아내고, 추출한 각 영역에 CNN을 적용하여 클래스를 분류하는 것이다
여기서 이미지를 사각형으로 변형하거나 분류할 때 서포트 벡터 머신을 사용하는 등 실제 처리 흐름은 다소 복잡하지만, 큰 틀에서는 이 두가지 처리로 구성된다

후보 영역 추출에는 컴퓨터 비전 분야에서 발전해온 다양한 기법을 사용할 수 있고, R-CNN 논문에서는 Selective Search 기법을 사용했다
최근에는 후보 영역 추출까지 CNN으로 처리하는 Faster R-CNN 기법도 등장했다

분할

분할이란 이미지를 픽셀 수준에서 분류하는 문제다
위 그림과 같이 픽셀 단위로 객체마다 채색된 지도 데이터를 사용해 학습한다
그리고 추론할 때 입력 이미지의 모든 픽셀을 분류한다

신경망을 이용해 분할하는 가장 단순한 방법은 모든 픽셀 각각을 추론하는 것이다
이런 식으로는 픽셀의 수만큼 forward 처리를 해야 하여 긴 시간이 걸리게 된다
이런 낭비를 줄여주는 기법으로 FCN이 고안되었고, 이는 단 한번의 forward 처리로 모든 픽셀의 클래스를 분류해준다

Fully Convolutional Network를 직역하면 '합성곱 계층만으로 구성된 네트워크'가 된다
일반적인 CNN이 완전연결 계층을 이용하는 반면, FCN은 이 완전연결 계층을 '같은 기능을 하는 합성곱 계층'으로 바꾼다
사물 인식에서 사용한 신경망의 완전연결 계층에서는 중간 데이터의 공간 볼륨을 1차원으로 변환하여 한 줄로 늘어선 노드들이 처리했으나, FCN에서는 공간 볼륨을 유지한 채 마지막 출력까지 처리할 수 있다

그림에서 보듯 FCN은 마지막에 공간의 크기를 확대하는 처리를 도입했다는 것도 특징이다
확대 처리로 인해 줄어든 중간 데이터를 입력 이미지와 같은 크기까지 단번에 확대할 수 있다
FCN의 마지막에 수행하는 확대는 이중 선형 보간에 의한 선형 확대다
FCN에서는 이 선형 확대를 역합성곱 연산으로 구현해내고 있다

사진 캡션 생성

컴퓨터 비전과 자연어를 융합한 연구가 있는데, 사진을 주면 그 사진을 설명하는 글을 자동으로 생성하는 연구다

예를 들어 1번 사진을 보고 "비포장도로에서 오토바이를 타는 사람"이라는 문장을 자동 생성했다

딥러닝으로 사진 캡션을 생성하는 방법으로는 NIC(Neural Image Caption) 모델이 있다
NIC는 그림과 같이 심층 CNN과 자연어를 다루는 '순환 신경망'으로 구성된다
RNN은 순환적 관계를 갖는 신경망으로 자연어나 시계열 데이터 등의 연속된 데이터를 다룰 때 많이 활용한다

NIC는 CNN으로 특징을 추출하고, 그 특징을 RNN에 넘긴다
RNN은 추출한 특징을 초깃값으로 해서 텍스트를 순환적으로 생성한다
기본적으로 NIC는 2개의 신경망을 조합한 간단한 구성이다
또한 사진이나 자연어와 같은 여러 종류의 정보를 조합하고 처리하는 것을 '멀티모달 처리'라고 한다

딥러닝의 미래

이미지 스타일 변환

그림은 두 이미지를 입력해서 새로운 그림을 생성하는 연구다
하나는 '콘텐츠 이미지', 다른 하나는 '스타일 이미지'라 부르는데, 이 둘을 조합해 새로운 그림을 그린다

큰 틀만 이야기하면, 이 기술은 네트워크의 중간 데이터가 콘텐츠 이미지의 중간 데이터와 비슷해지게 학습한다
이렇게 하면 입력 이미지를 콘텐츠 이미지의 형태를 흉내 낼 수 있다
또, 스타일 이미지의 화풍을 흡수하기 위해 '스타일 행렬'이라는 개념을 도입해 그 행렬의 오차를 줄이도록 학습한다

이미지 생성

'DCGAN'을 사용하면 아무런 입력 이미지 없이 새로운 이미지를 그려낼 수 있다
물론 먼저 대량의 이미지를 학습하지만, 학습이 끝난 후에는 '무'로부터 이미지를 생성할 수 있다

위 이미지들은 DCGAN이 생성한 이미지다
DCGAN은 이미지를 생성하는 과정을 모델화한다
그 모델을 대량의 이미지를 사용해 학습하고, 학습이 끝나면 모델을 이용해 새로운 그림을 생성한다
DCGAN도 딥러닝을 사용하는데, 핵심은 생성자와 식별자로 불리는 2개의 신경망을 이용한다는 점이다
생성자가 이미지를 생성하고, 식별자는 그것이 진짜인지 판정한다
그렇게 둘을 경쟁시키면서, 생성자는 더 정교한 이미지 생성 기술을 학습하고, 식별자는 더 정확하게 간파할 수 있는 감정사로 성장한다
이것이 바로 GAN의 특징이다

자율 주행

자율 주행은 다양한 기술을 모아 구현하고 있지만, 그중에서도 주위 환경을 올바르게 인식하는 기술이 가장 중요하다
시시각각 변하는 환경과 종횡무진 오가는 다른 차와 사람들을 올바르게 인식하기가 매우 까다롭기 때문이다

최근에는 주위 환경을 인식하는 기술에서 딥러닝이 큰 역할을 해줄것으로 기대하고 있다
예를 들어 SegNet이라는 CNN 기반 신경망은 그림과 같이 주변 환경을 정확하게 인식한다

그림과 같이 입력 이미지를 분할하고 있고, 결과를 보면 어느 정도 정확하게 판별하고 있다

Deep Q-Network(강화학습)

사람과 같이 컴퓨터도 시행착오 과정에서 스스로 학습하는 분야가 존재한다
이는 '가르침'에 의존하는 '지도 학습'과는 다른 분야로 '강화학습'이라고 한다

강화학습에서는 에이전트라는 것이 환경에 맞게 행동을 선택하고, 그 행동에 의해서 환경이 변한다는 게 기본적인 틀이다
환경이 변화하면 에이전트는 어떠한 보상을 받고, 더 나은 보상을 받는 쪽으로 에이전트의 행동 지침을 바로잡는 것이 학습의 목적이다

그림은 강화학습의 기본적인 틀이다
여기서 주의점은 보상은 정해진 것이 아니라 '예상 보상'이라는 점이다
특정 상황에서 행동에 대한 보상은 천차만별이 될 수 있다
이런 불명확한 상황에서 명확한 지표로부터 역산해서 '예상 보상'을 정해야 한다

딥러닝을 사용한 강화학습 중 'Deep Q-Network'라는 방법이 있다
이는 Q학습이라는 강화학습 알고리즘을 기초로 한다
Q학습에서는 최적 행동 가치 함수로 최적인 행동을 정한다
이 함수를 딥러닝으로 비슷하게 흉내 내어 사용하는 것이 DQN이다

그림과 같이 DQN에서 사용하는 CNN은 게임 영상 프레임을 입력하여 최종적으로는 게임을 제어하는 움직임에 대하여 각 동작의 '가치'를 출력한다

그동안의 비디오 게임 학습에서는 게임의 상태는 미리 추출하는 것이 보통이었다
그러나 DQN에서는 입력 데이터는 비디오 게임의 영상뿐이다
이는 DQN의 주목할 점으로, 응용 가능성을 현격히 높였다
게임마다 설정을 바꿀 필요없이 단순히 DQN에 게임 영상을 보여주기만 하면 되기 때문이다

APPENDIX Softmax-with-Loss 계층의 계산 그래프

소프트맥스 함수는 'Softmax' 계층, 교차 엔트로피 오차는 'Cross Entropy Error' 계층, 이 둘을 조합한 계층을 'Softmax-with-Lpss' 계층이라 한다

그림을 보면 3클래스 분류를 수행하는 신경망을 가정하고 있다
입력은 a이며, Softmax 계층은 y를 출력한다
또, 정답 레이블은 t이며 Cross Entropy Error 계층은 손실 L을 출력한다
여기서 역전파의 결과는 (y1-t1, y2-t2, y3-t3)가 된다

순전파

Softmax 계층은 다음과 같은 수식을 가진다

그림은 기수의 합, 즉 위 식의 분모 항을 S로 표기했다
또, 최종 출력은 y이다

이어서 Cross Entropy Error 계층은 위 식을 가진다

식을 바탕으로 Cross Entropy Error 계층의 계산 그래프는 다음과 같이 그릴 수 있다

역전파

우선 Cross Entropy Error 계층의 역전파는 위 그림과 같이 그릴 수 있다
이 계산 그래프의 역전파를 구할 때는 다음을 유념해야 한다

역전파의 초깃값, 즉 그림의 가장 오른쪽 역전파의 값은 1이다
'x'노드의 역전파는 순전파 시의 입력들의 값을 '서로 바꿔' 상류의 미분에 곱하고 하류로 흘린다
'+'노드에서는 상류에서 전해지는 미분을 그대로 흘린다
'log' 노드의 역전파는 다음 식을 따른다

이상의 규칙을 따르면 Cross Entropy Error 계층의 역전파는 쉽게 구할 수 있다
이 값은 Softmax 계층의 역전파 입력이 된다

앞 계층의 역전파 값이 흘러온다

'x'노드에서의 순전파의 입력들을 서로바꿔 곱하며, 여기선 다음 계산이 이루어진다

순전파 때 여러 갈래로 나뉘어 흘렀다면 역전파 때는 그 반대로 흘러온 여러 값을 더한다
그래서 여기에선 3개의 갈라진 역전파 값(-t1S, -t2S, -t3S)이 더해진다
이 더해진 값이 '/'노드의 역전파를 거쳐 1/S * (t1+t2+t3) 이 된다
그런데 여기서 (t1+t2+t3)은 '원-핫 벡터'로 표현된 정답 레이블이다
따라서 t1+t2+t3 = 1이 된다