[Coursera] Convolutional Neural Networks 강의 (23~31)

JOY·2021년 4월 14일

0

투빅스 14기 장혜림

1. Object Localization

이미지 안의 object가 어느 위치에 있는지 위치 정보를 출력해주는 것으로, 주로 bounding box로 처리해줌
하나의 object에 대해서만 수행 가능
기존 class 분류를 위한 ouput에 bounding box를 위한 output (bx, by, bh, bw) 추가

loss function으로 보통 sum of squared error 사용

2. Landmark Detection

이미지에서 주로 특징점이라고 불리는 주요한 지점을 의미
여러 개의 output unit을 추가해서 인식하고자 하는 특징점들의 각 좌표를 출력함
이 때, 특징점은 다른 이미지에 대해서도 항상 동일해야 함

3. Object Detection

1) Sliding Window Detection

window 크기만큼 이미지를 잘라 학습한 ConvNet의 input으로 사용
이미지의 끝에 도달할 때까지 sliding 반복
더 큰 사이즈의 window로 sliding 반복
단점: Computation cost가 큼
이를 해결하기 위해 Turning FC layer into convolutional layers 적용
FC layer를 Convolution layer로 변환함으로써, output을 vector형태에서 volume 형태로 사용
한 번의 연산으로 sliding window한 결과값을 얻을 수 있음
여전히 존재하는 문제: Bounding box의 위치가 정확하지 않을 수 있음

2) YOLO algorithm

Bounding box의 좌표를 output으로 하기 때문에 각 object에 대한 정확한 경계를 찾을 수 있음

2-1) Intersection over union

bounding box prediction 평가

2-2) Non-max suppression

알고리즘이 같은 물체를 여러 번 감지하는 것이 아니라, 각 물체를 한 번씩만 감지하게 함

2-3) Anchor boxes

하나의 grid cell에 여러 개의 object가 나타날 경우, 이를 감지하기 위해서 Anchor box 사용
y vector output 늘어남

3) Region Proposals

Sliding window처럼 이미지의 모든 부분을 classification하는 것이 아니라, 몇 개의 지역만을 골라서 classification 수행하는 방식

3-1) R-CNN

물체가 있을 만한 영역(box)을 2000개 정도 제안(Selective Search)하고, 제안된 영역을 resize한 후 CNN모델을 통과시켜 object 분류
연산 속도가 매우 느리다는 단점

3-2) Fast R-CNN

각각의 Proposal에 대해 CNN 모델 통과시키는 것이 아니라, 전체 이미지에 대해 한번에 CNN 모델 통과시킨 후 출력된 Feature map에서 객체 탐지

3-3) Faster R-CNN

Region Proposal을 위해서 사용했던 Selective Search 기법 대신에 RPN(Region Proposal Network) 사용

4. Reference

Andrew Ng, Convolutional Neural Networks Course
Boostcourse, 딥러닝 4단계: 합성곱 신경망 네트워크(CNN) Course
https://www.youtube.com/watch?v=eTDcoeqj1_w
https://wooono.tistory.com/238
https://gnoej671.tistory.com/39?category=1108752
https://m.blog.naver.com/infoefficien/221229809170
https://herbwood.tistory.com/7
https://yeomko.tistory.com/13
https://nuggy875.tistory.com/33

다음 포스트

[Coursera] Convolutional Neural Networks 강의 (23~31)

0개의 댓글