# easyOCR

9개의 포스트
post-thumbnail

OCR 찾아 삼만리

최근에 갑작스럽게 시작하게 된 프로젝트의 백엔드를 담당하면서 글자 인식에 대해 자세히 알아보게 되었다. 프로젝트 주제 자체는 굉장히 단순한데, 바로 영수증을 찍으면 자동으로 거래 날짜, 가게 이름, 결제 금액 등을 구글 스프레드시트에 작성하는 서비스이다. > 작년에 교회에서 회계를 하면서 모든 것이 아날로그 (수기로 장부 작성, 실물 영수증 보관 등) 인 것에 너무나 감동을 먹은 나머지 현재, 그리고 미래의 회계를 위해 자동화 서비스를 생각하게 되었다. 웹 개발도 진행중에 있지만, 무엇보다 나에게 중요한 것은 바로 영수증 사진에서 글자를 어떻게 추출할 것인가였다. 📄 OCR? > Optical Character Recognition (OCR), 광학 문자 인식 - 나무위키 OCR은 이미지의 글자를 인식하여 기계가 읽을 수 있는 텍스트 데이터로 치환하는 과정이다. 이미지 파일에서는 텍스

2023년 8월 12일
·
1개의 댓글
·

[오픈소스] EasyOCR 개발기

https://github.com/JaidedAI/EasyOCR 80개 이상의 언어를 지원하며 일반적으로 OpenCV를 활용하여, 직접적으로 OCR을 유연하게 하는 것이 가능하지만, easyOCR은 이름 그대로, 어느정도만을 사용가능하게끔 합니다. EasyOCR 구조 pytorch 기반 하에 만들어졌으며, Detection 과 Recongnition을 수행, 모델들은 주로 Resnet, LSTM, CTC로 이루어 만들어졌다. EasyOCR 선정이유 EasyOCR은 오픈소스로서 프린트된 텍스트를 분석하는데 높은 정확도를 보여준다고 들었고, Python 환경에서 Pytorch에 있는 pre-trained된 모델을 추가

2023년 8월 4일
·
0개의 댓글
·
post-thumbnail

[영수증 분석] 비전공자도 가능한 파이썬으로 영수증 분석하기

안녕하세요! 오늘은 easyocr을 사용해 파이썬으로 영수증을 분석해보려 합니다. https://pypi.org/project/easyocr/ > 1. easyocr 환경 만들기 먼저 easyocr을 설치합니다. 이후 링크의 usage에 가서 코드를 복사합니다. 저는 영어에서 한글로 변경시키기 때문에 문자를 변경했습니다. > 2. 결과 디코딩하기 좀 더 깔끔하게 보기 위해 문자를 정렬해 줍니다. ![](https://vel

2023년 7월 23일
·
1개의 댓글
·
post-thumbnail

EasyOCR 101번째 Contributor, 그리고 10위가 되다..

EasyOCR PullRequest Log 나는 석사학위논문을 작성할 때 사용했던 OCR Framework로 EasyOCR을 사용했다. 학위논문을 받기 위해 여러가지를 실험하던 중, Framework 자체를 분석하며 사용자의 입장에서 약간 개선됐으면 하는 부분이 있어 PR을 보내놓고 3개월이 지나, Computer Vision직무로 취업을 하고 회사에 적응하고 있었는데 퇴근시간 10분전에 무슨 메일이 오길래 뭔가하고 봤다가 너무 기뻐서 여기저기 자랑좀 했다. 내가 개발자로써 목표하던 여러가지중 하나, 10k 이상의 오픈소스에 Contributor가 되어보는것. "개발자로써" 목표이기 때문에 문서 수정이나, 오타 수정이 아닌 내 코드가 오픈소스에 적용되는 것이 목표였다. 그걸 너무 빠른시간에 이뤘다고 생각해서 행복하다 ㅎ... 기여 내용 ![](https://velog

2023년 5월 19일
·
2개의 댓글
·

EasyOCR lmdb.Error: /home/data/train/: No such file or directory

EasyOCR Finetuning을 위해 재학습할 때 나타난 에러이다. 분명 train 경로도 다 맞고 다른 파라미터들도 맞게 한 것 같은데... 아래와 같은 에러가 나타났다. 에러메시지 이유는 EasyOCR의 config yml 파일의 dataset 이름이 lmdb인데, lmdb가 아니고 simple data를 넣으려고 해서 생긴 일이다. Easy OCR은 simple data를 변환해줘서 lmdb형태의 데이터를 넣어줘야 학습할 수 있다. simpledataset: 폴더 안에 이미지 파일들이 있고, gt(label)파일에는 폴더 경로와 그 이미지의 ground truth 데이터가 적혀있음 ex. img01.png, img02.png, img_03.png, ... gt.txt img_01.png apple img_02.png cherry img_03.png banana lmdb: 위의 simpledataset 데이터를 createlmdbdataset.

2023년 1월 7일
·
0개의 댓글
·

EasyOCR을 사용해 티켓 속 문자를 텍스트화 해보자 #1

시작하며 프로젝트 소개 우리의 졸업프로젝트인 공연후기 기록/공유 웹서비스는 후기 작성 시 공연 티켓 이미지를 통해 일시, 장소, 좌석과 같은 정보를 추출해 입력을 자동화해주고, 이를 통해 실제 관람 인증을 할 수 있는 기능을 제공할 것이다. 이 기능은 OCR(광학 문자 인식)을 통해 이미지에 쓰여있는 글씨를 텍스트 데이터화 해야하므로 EasyOCR을 이용해 구현해보려고 한다. EasyOCR이란? 공식 Github EasyOCR은 문자 영역 인식(Detection) + 문자 인식(Recognition) 기능을 모두 하는 프레임워크이다. 2020년에 나타난 비교적 최신 OCR로 현재까지 많은 사람들이 이용하고 있고

2022년 5월 25일
·
2개의 댓글
·

TesseractOCR, EasyOCR 실행과 학습

프로젝트 개요 먼저 우리의 프로젝트를 간략하게 소개하자면, 티켓 정보를 바탕으로 하는 공연 후기 서비스이다. 따라서 유저의 티켓 정보를 필요로 하며, 이 글에서는 다음과 같은 티켓 사진에서 공연 일시와 장소, 좌석 정보를 가져오기 위한 OCR 작업을 소개하고자 한다. TesseractOCR Tesseract는 1985년에서 1994년 사이에 독점 소프트웨어로 개발되었고, 2006년부터 구글에서 후원하고 있다. 여러 언어를 지원하고, 오픈소스로 현재까지도 많이 사용되고 있다. Tesseract 버전3은 문자 패턴을 인식하여 작동하였으며,

2022년 5월 11일
·
0개의 댓글
·
post-thumbnail

easyOCR paper - CRAFT(Character Region Awareness for Text Detection) Review

비전 쪽에 관심이 생기기도 했고, 학회 스터디의 일환으로 드디어 논문 첫 리뷰를 시작하게 되었습니다. > 아직 학생이기도하고 영어가 미숙하다보니 본 리뷰에 오류가 있을 수도 있습니다. 이 점 감안해주시고 혹시나 찾으신다면 피드백 감사히 받겠습니다. Introduction Scene text detection은 굉장히 많은 쓰임새로 인해서 CV 분야에서 굉장히 큰 관심을 받아왔습니다. 특히 text detection 분야의 2014년 AlexNet의 등장 이후로 이 deep learning 기술을 접목하자 그때부터 좋은 성능을 보여주기 시작했습니다. 하지만 구부려진 모양이거나 변형된 형태의 box로 구성된 text들에 대한 detection 성능은 아직까지 기대에 미치지 못했는데요. 이러한 문제를 해결하기 위해 본 논문은 box를 찾는 detection보다는 각 character를 찾은 후 link를 찾아 box를 형성하는 bottom-up 형식의 detectio

2021년 3월 19일
·
0개의 댓글
·

국문 OCR 오픈소스 소개

OCR은 Digitization의 관문 OCR의 역사는 오래되었으나, 근래들어 기업들의 활용도가 높아 지고 있으며 시장 역시 2025년 133억 달러에 이를 것을 예상할 정도로 커지고 있습니다. OCR이 중요한 이유는 레거시 산업(전통적인 농업, 제조, 서비스 등)의 대부분의 데이터는 아날로그화되어있기 때문입니다. OCR은 이를 Digitization하는 역할을 수행하는 주요한 도구가 됩니다. 기존의 아날로그 데이터를 디지털화하는 것을 사람이 해서는 비용과 시간측면에서 너무 과도하게 소요되기도 하거니와 실제로는 불가능에 가까울 것입니다. 몇 가지 OCR 도구 소개 사용부터 오픈소스 또 클라우드 기반의 서비스들까지 다양한 OCR 도구가 존재합니다. 제각기 특징과 성능이 다르기 때문에 모든 툴의 성능을 측정해 본것은 아니며 정확한 지표는 아니지만

2020년 7월 23일
·
1개의 댓글
·