https://ssong915.tistory.com/43 블로그 정리.
이미지 전체를 한번만 보는 것
R-CNN: 이미지를 여러장으로 분할하고 CNN 모델을 이용하여 이미지를 분석했다. 따라서 이미지 한장을 보더라도 여러장의 이미지를 분석하는 것과 같았다. 하지만 YOLO는 이러한 과정없이 이미지를 한 번만 보는 특징을 가지고 있다.
통합된 모델을 사용하는 것
기존 Object Detectin 모델은 전처리모델 + 인공신경망 을 결합하여 사용했다. 하지만 YOLO에서는 위를 통합한 모델을 사용한다.
실시간으로 객체를 탐지할 수 있는 것
기존의 R-CNN보다 6배 빠른 성능을 보여준다
4.YOLO 아키텍처(전체 구조-백본,넥,헤드 전체를 아우르는 뼈대를 말함.)
YOLO는 자체 맞춤 아키텍쳐 사용(다크넷을 가져다가 쓴다.)
YOLOv4: Optimal Speed and Accuracy of Object Detection https://arxiv.org/pdf/2004.10934v1.pdf
백본(Backbone)은 입력이미지를 feature map으로 변형(추출-CSP-Darknet)시켜주는 부분이다.
헤드(Head)는 Backbone에서 추출한 feature map의 location(물체 위치 찾음, 앵커박스 처음설정) 작업을 해주는 부분으로, predict classes 와 bounding boxes 작업이 수행된다. 헤드는 크게 Dense Prediction(밀집)과 Sparse Prediction(희소)으로 나누어진다.
넥(Neck) 은 Backbone 과 Head를 연결하는 부분으로, feature map을 정제하고 재구성한다.
Sparse Prediction(희소)을 사용하는 Two-Stage Detector: Predict Classes 와 Bounding Box Regression 분리 ex) R-CNN, R-FCN
Dense Prediction(밀집) 을 사용하는 One-Stage Detector: Predict Classes 와 Bounding Box Regression 통합 ex) ✔️YOLO, SSD -> 한번에 처리되어 속도 빨라짐.