투빅스 14기 장혜림
1. Object Localization
-
이미지 안의 object가 어느 위치에 있는지 위치 정보를 출력해주는 것으로, 주로 bounding box로 처리해줌
-
하나의 object에 대해서만 수행 가능

-
기존 class 분류를 위한 ouput에 bounding box를 위한 output (bx, by, bh, bw) 추가

- loss function으로 보통 sum of squared error 사용

2. Landmark Detection
- 이미지에서 주로 특징점이라고 불리는 주요한 지점을 의미
- 여러 개의 output unit을 추가해서 인식하고자 하는 특징점들의 각 좌표를 출력함
- 이 때, 특징점은 다른 이미지에 대해서도 항상 동일해야 함

3. Object Detection
1) Sliding Window Detection
-
window 크기만큼 이미지를 잘라 학습한 ConvNet의 input으로 사용
-
이미지의 끝에 도달할 때까지 sliding 반복

-
더 큰 사이즈의 window로 sliding 반복

-
단점: Computation cost가 큼
-
이를 해결하기 위해 Turning FC layer into convolutional layers 적용

-
FC layer를 Convolution layer로 변환함으로써, output을 vector형태에서 volume 형태로 사용
-
한 번의 연산으로 sliding window한 결과값을 얻을 수 있음

-
여전히 존재하는 문제: Bounding box의 위치가 정확하지 않을 수 있음
2) YOLO algorithm
- Bounding box의 좌표를 output으로 하기 때문에 각 object에 대한 정확한 경계를 찾을 수 있음

2-1) Intersection over union
- bounding box prediction 평가

2-2) Non-max suppression
- 알고리즘이 같은 물체를 여러 번 감지하는 것이 아니라, 각 물체를 한 번씩만 감지하게 함


2-3) Anchor boxes
- 하나의 grid cell에 여러 개의 object가 나타날 경우, 이를 감지하기 위해서 Anchor box 사용
- y vector output 늘어남

3) Region Proposals
- Sliding window처럼 이미지의 모든 부분을 classification하는 것이 아니라, 몇 개의 지역만을 골라서 classification 수행하는 방식

3-1) R-CNN
- 물체가 있을 만한 영역(box)을 2000개 정도 제안(Selective Search)하고, 제안된 영역을 resize한 후 CNN모델을 통과시켜 object 분류
- 연산 속도가 매우 느리다는 단점

3-2) Fast R-CNN
- 각각의 Proposal에 대해 CNN 모델 통과시키는 것이 아니라, 전체 이미지에 대해 한번에 CNN 모델 통과시킨 후 출력된 Feature map에서 객체 탐지

3-3) Faster R-CNN
- Region Proposal을 위해서 사용했던 Selective Search 기법 대신에 RPN(Region Proposal Network) 사용

4. Reference
Andrew Ng, Convolutional Neural Networks Course
Boostcourse, 딥러닝 4단계: 합성곱 신경망 네트워크(CNN) Course
https://www.youtube.com/watch?v=eTDcoeqj1_w
https://wooono.tistory.com/238
https://gnoej671.tistory.com/39?category=1108752
https://m.blog.naver.com/infoefficien/221229809170
https://herbwood.tistory.com/7
https://yeomko.tistory.com/13
https://nuggy875.tistory.com/33