1. OCR
1) 원리
- Text Detection(문자 검출): 입력된 사진 속 문자의 위치 판별
- Text Recognition(문자 인식): 찾은 문자 영역에서 문자를 읽어냄
2) LeNet
출처
- Noise Resistance
- 가려진 케이스에 대한 데이터 확보
- Augumentation
robust란? 노이즈가 섞여있어도 목적을 잘 수행해는 성질
3) Detection
- Regression (object detection과 비슷)
- 기준으로 삼은 박스 대비 문자를 추출해 지정한 박스가 얼마나 차이가 나는지 학습
- Segmentation (최근 경향)
- 픽셀 단위로 해당 픽셀이 문자를 표현하는지 분류하는 문제(pixel-wise classification)
4) CRNN
- 이미지 내의 문자 인식 모델의 기본적인 방법
- CNN과 RNN 결합
- 이미지 텍스트와 관련된 특징을 CNN을 통해 추출, 문자 정보는 RNN(+ attention이 늘어나는 추세, 정확도는 높지만 메모리가 많이 듦)으로 인식
2. 회고
api를 이용하는 거라 쉽게 할 수 있었다. 중간에 tile cannot extend outside image 오류가 났었는데 아마 crop 함수에서의 문제였던 거 같다. 그런데 문제를 제대로 안읽고 아무 사진이나 골라서 했을 때 오류가 났던 거라, 문제를 읽고 서비스 기획을 제대로 정한 다음엔 아예 테스트 용 사진을 모두 바꿔버려 의도치 않게 해결되었다. 문제가 크게 어렵지 않았고 결과도 빠르게 나와 좋았다. 금방 끝낼 수 있던 건데 문제를 잘 안읽어서 두 번 일했다.. 문제는 항상 제대로 읽자..