YOLO v1 - 이미지에서 객체 탐지를 해볼까? - 논문 리뷰

minyoungxi·2023년 5월 19일

CV Computer Vision YOLO 논문리뷰 딥러닝 머신러닝 컴퓨터비전

Computer Vision - YOLO series

목록 보기

1/2

YOLO 특징

객체 인식을 regression problem으로 접근
단일 네트워크 사용으로 FULL image 에서 bbox, class probabilities 예측
빠른 예측 속도 ( 단일 네트워크 때문 )
배경에서 오탐지할 가능성이 적음 ( bbox 학습시 각 cell 마다 박스 1개 사용, cell 당 클래스 1개 할당 )
일반화 가능한 객체 표현을 학습
- pascal VOC 데이터셋으로 학습하고 다른 데이터셋을 예측해도 성능이 높음.
지역 제안 기반 모델보다 정확도가 낮음
작은 개체 식별 어려움
- v1 ~ v6 까지 지속적으로 노력

입력 이미지와 산출 벡터 구조

객체의 중심이 있는 cell은 객체 인식의 기준으로 정합니다. ( Pr(obj) = 0 or 1 )

객체의 중심이 있는 cell은 target 을 가지고 있습니다.

dog 클래스의 벡터를 보면 가장 위에 있는 숫자가 1 인데요,

1은 개의 중심이 있는 셀, 즉 객체가 있는 셀은 1로 표현을 합니다.

그리고 개에 해당하는 타겟 바운딩 박스의 중심이 0.3 0.3 = x , y이고 너비가 0.7 높이가 0.5를 의미합니다.

그 아래에 0 1 0 0 0 은 dog 클래스를 원-핫 벡터로 나타낸 것입니다.

그러면 예측 벡터는 어떻게 될까요?

이미지는 grid로 나눠지는데, yolo v1은 각 grid마다 bbox 를 B개 만들어줍니다. 각 grid당 여러 개의 bbox를 사용합니다.

그래서 만약에 B개의 bbox가 있다면 , 각 셀당 박스의 개수가 B개가 있어야하고, 그 박스는 박스의 정보를 가지고 있어야 하기 때문에 중심(x,y)과 너비(w)와 높이(h), 컨피던스 스코어(Pc) 를 가지고 있어야 되겠죠.

box에 해당하는 부분은 5개의 성분으로 이루어져 있습니다. box가 여러개가 있어도 각 셀 당 하나의 클래스만 예측을 하게 되므로 결국은 각 셀에 배당되는 y햇의 값은 클래스를 하나만 가지고 있습니다. v1에서는 각 cell당 클래스 하나만 다루게 됩니다.

각 cell 당 B개의 bbox를 생성
즉, y햇의 크기는 5xB+n ⇒ 5 ( 성분이 5개 이므로 ) x B(박스의 개수) + Nc ( 클래스의 개수 )
따라서 이미지 한 장에서 나오는 예측 텐서의 크기는 S x S x ( 5 x B + Nc )

예측은 정확히 bbox에 맞춰져 있지 않을 수 있어서 IoU로 정의합니다.

target 벡터에서는 우리가 답을 알고 있기 때문에 ( 객체가 있다 or 없다 ) 객체의 중심이 있으면 1 없으면 0을 할당. ( Pr(obj) = 0, 1 )

논문에서는 S = 7 , B = 2, pascal VOC C = 20 으로 맞춰줌
- pascal VOC C = 20은 pascal VOC 데이터 ( 클래스 20개 )

모델 + GoogLeNet , MultiStep scheduler, LeakyReLU

y햇(예측)은 다음과 같은 벡터를 갖게 됩니다. 30 x 1 크기였습니다.

각 cell 마다 bbox를 2개 씩 갖게 되므로 7 x 7 x 2 = 98 개의 bbox가 생성됩니다.

각 cell 마다 클래스 1개를 포함하므로 Class probability map을 만들 수 있습니다.

마지막으로 confidence score와 bbox간의 IoU 값을 통해서 best bbox를 산출할 수 있겠네요 !

→ NMS 알고리즘을 통해서 최종적으로 best box를 산출하게 됩니다.

GoogleLeNet ( Inception 1 ) - ILSVRC 2014 우승

yolo v1 에서는 googleLeNet 모델을 사용했습니다.

이 모델의 특징은 한 블록당 y번의 연산을 하는 것이 특징입니다.

저 블록들을 딥하게 연결하면 네트워크가 구성됩니다.

conv layers : 24 , fc : 2 ( Fast YOLO는 conv layers : 9 )

하지만 논문에서 사용한 구조는 GoogleNet 과 엄청난 유사성을 보이진 않습니다. ( 개인적으로 )

일단 인셉션 블록을 사용하지 않았고

구조를 자세히 보시면 3 x 3 conv 사이에 1 x 1 conv을 넣었습니다.

이는 메모리를 효율적으로 사용하려는 의도인데요, 1x1 conv의 장점은 뭘까요?

Feature map 사이즈를 줄이지 않고 채널 수를 자유자재로 바꿀 수 있다는 것이 장점입니다.

3 x 3 윈도우를 쓰면서 512개의 채널을 운영하면서 중간에 256짜리로 줄여서 다시 한 번 계산을 해서 연산을 한 번 더 늘리되 채널 수를 줄여서 운영하겠다는 것이죠.

실제로 많이 사용하는 방법 중 하나입니다. ( 1x1 , 3x3 , 1x1, 3x3 … )

이런 방법을 ( reduction layer ) 라고 합니다.

Feature map 사이즈를 유지하면서 채널 수를 확 줄여줄 수 있는 방법입니다.

여기서는 conv layer를 24개를 사용했고 , fc는 2개를 사용했습니다.

마지막에 나오는 결과는 7 x 7 x 30 입니다.

S x S x ( 5B + Nc ) 를 산출해주네요.

Fast YOLO 에서는 conv layers를 9개만 사용하는데, 이는 속도가 빨라지고 mAP는 낮아집니다.

모델 학습

1000개의 클래스를 가진 224x224 ImageNet 데이터로 conv layers를 사전 학습 ( pretrained )
사전 학습에는 20개의 conv와 avg. pooling 1층, fc 1층이 사용
추가 학습 ( fine tuning )
- 4개의 conv와 2개의 fc 추가 모델 사용
- 448 x 448 데이터 사용
- 마지막 층을 제외한 모든 층에 Leaky ReLU 적용
Batch size : 64
momentum optimizer ( momentum factor = 0.9 ) 사용
MultiStep 스케줄링 사용
- 이 때는 지금 많이 사용하는 Adam이 나오기 전. momentum + Scheduling은 아직도 많이 사용하는 기법
- 스케줄링 → 에폭마다 lr을 조정한다는 의미. ( 일반적으로 epoch이 커지면 lr은 작게 가져가는 편 ) ***이 부분은 따로 정리
FC1에 dropout ( drop rate = 0.5 ) 적용
- 마지막 레이어에는 당연하지만 정규화 사용하면 안됌. ( 온전한 값이 나와야 함 )
Data Augmentation 적용 : 이미지 스케일링(flip ,crop ), 컬러 변환 ( 흑백, 명암, 색조 등 )

활성화 함수는 leaky ReLU 사용.

0.1 부분은 사용자가 바꿔줄 수 있음.

손실 함수

논문에서 가장 중요한 부분인 손실 함수 부분을 다뤄보겠습니다.

전체 손실 함수는 → sum-squared error로 정의를 했습니다.

각 cell 마다 loss를 다 더했고, 일부 기능들을 강화 혹은 약화 시키기 위해서 가중 함수를 사용했습니다. 식을 보면 a(알파) 와 b(베타)가 있죠? 이렇게 패널티 값들을 넣어줍니다.

3가지의 loss 로 나눠집니다.

bbox의 loss → bbox의 중심에 대한 loss ( Lbc ) : 중심에 얼마나 가까운지를 구해서 그 거리를 줄이기 위함. 그리고 bbox의 너비와 높이를 이용한 loss.

conf score의 loss → 일반적인 사진에는 객체보다 배경에 해당하는 grid가 더 많습니다. 객체가 아닌 부분이 더 많기 때문에 객체가 아닌 grid를 기준으로 conf score를 계산하면, 0이 됩니다. 최적화 할 때마다 모든 conf score가 0에 가까워지는 경향이 있습니다.

그래서 Object의 유무에 따라 cell을 나눠서 계산 해줍니다. B(베타) 패널티가 붙어있는 함수가 Object가 없는 loss이죠. Object가 없는 cell은 모델 최적화에 덜 영향을 주기 위해서 작은 값의 B(베타)를 주게 됩니다. 이 논문에서는 0.5를 사용했습니다. 그리고 bbox의 예측 성능 강화를 위해 a(알파) 값으로 5를 주게 됩니다.