[인턴 프로젝트] 1. OCR이란 무엇인가?

코드짜는침팬지·2023년 7월 6일
0

인턴

목록 보기
1/1
  • 개요

이번에 학교 전공필수 실습 수업으로 랩실 인턴을 했다.
사실 교수님이 실험도구를 다 집에다 차로 옮겨주셔서 집에서 했지만
이번에 실습을 진행하며 사용했던 알고리즘, 과정들을 써볼 예정이다.

목표는 다음과 같다.
다음 이미지들을 ocr로 추출해서 excel 파일로 만들면 된다.
object detection, object recognition

구상중인 코드의 로직은 다음과 같다.

  1. 우선 이미지의 보정을 진행한다. 나의 경우 이미지가 주황색 박스에 들어있는 왁스블록을 찾는것이 목표이며,

    카메라에 찍혀있는 이미지가 기울어져 있는 문제를 해결하기 위해 우선적으로 주황색 부분을 찾고, 윤곽선을 찾아 이미지를 수평화 한다.

  2. 수평화 되어있는 이미지에 대해 객체검출(object detection) 을 시도한다.

  3. 검출된 파일에 대해 OCR을 진행한다. 여기서는 네이버의 Clovaai를 기반으로 한easyocr 바이두의 paddlepaddle 두가지를 사용 해 볼 계획이다.

    구글 테서렉트는 쓰지 않는다. 위에 두 OCR과 비교할 때 성능이 심하게 떨어진다.

  • OCR이란 무엇인가

OCR (Optical Character Recognition, 광학 문자 인식): OCR은 기계가 사람의 손글씨, 인쇄된 글자, 표지판 등의 글자 이미지를 인식하고 이를 텍스트 데이터로 변환하는 기술이다.
OCR 시스템은 크게 세 단계로 작동한다.

  1. 글자 영역을 감지한다.(Detect)
  2. 영역 안의 글자를 인식한다.(recognition)
  3. 인식된 문자를 단어나 문장으로 만든다.

오픈소스로 사용 가능한 OCR은 여러종류가 있는데 Tessaract, easyocr, paddle이
대표적이다.

셋 다 딥러닝 기반으로 작동하며, 커스텀 트레이닝이 가능하다.

profile
학과 꼴찌 공대 호소인

0개의 댓글