OCR 프로젝트를 진행하여 처음 배운 Transformer 모델에 대한 이해를 메모한다.
OCR
Optical Character Recognition : 이미지에서 글자를 인식하고 이를 자연어로 변환하는 기술
Text Detection + Text Recognition 두단계로 이루어진다.
- Detection - 이미지에서 텍스트를 추출한다. 대표적인 모델로는 CRAFT, YOLOv5 등
- Recognition - 추출한 텍스트 이미지를 인지하여 자연어로 변환한다. (RNN, CRNN, LSTM, GRU 등)
한글을 ocr 해보자
- detection -> 한 영역 (정사각형 or 직사각형, 정확히는 한 글자)의 기호를 인식, 변환 / 글자 사이는 token으로 분류
- recognition -> 기호의 조합을 NL(Natural Language)로 변환