pixel 단위로 class prediction
-> person, Bicycle 등의 객체 검출
자율주행 등에서 활용된다.
- object detection 과정
- input image 입력
- 약 2,000개의 region을 뽑아 냄(Selective search)
-> 각 region은 크기가 다름- 크기가 다른 region의 크기를 맞춤(CNN에 학습시키기 위해)
- 각 region에 대해서 feature 계산(AlexNet 사용)
- linear SVM 사용해서 분류
- object detection 과정
- 이미지 안에서 bounding box 뽑음
- 이미지 전체에 대해서 convolutional feature map 생성
- 뽑힌 bounding box 위치에 해당하는 convolutional feature map의 tensor만 가져옴
- object detection 과정
- input image 입력받고 bounding box 2,000개 정도 뽑음(selective search)
- convolutional feature map을 한 번 얻음
- 각 region에 대해서, 고정된 길이 feature를 뽑음(ROI pooling 통해서)
- class와 bounding-box regression(bounding box 어떻게 움직이면 좋을지) 얻어냄
-> Fully Connected layer 활용
- object detection 과정
- 이미지가 들어오면 이미지를 S S grid로 나눈다.
-> 찾고싶은 물체의 중앙이 해당 grid 안에 들어가면, 그 grid cell이 해당 물체 bounding box와 해당 물체가 무엇인지 같이 예측해야 한다.- 각 cell은 B개의 bounding box를 예측하게 됨
- 각 bounding box가 예측하는 것
- x좌표, y좌표, width, height
- box가 쓸모 있는지 여부
- 동시에 각 grid cell은 cell에 속한 object의 각 class 확률 예측
- bounding box 정보와 class 정보 취합
- tensor size(channel 수) : S S (B*5+C)
- SS : grid cell의 개수
- B*5 : B bounding box의 offset(x,y,w,h)과 box 사용 여부
- C : C개의 class 확률