# tesseract

17개의 포스트
post-thumbnail

한글 OCR with opencv, pytesseract - 인식률 높이기

Contour 같은 값을 가진 곳을 연결한 선 이미지의 외곽선을 검출하기 위해 사용 실습 참고한 예시에서는 문서나 영수증을 스캔해서 4각형 윤곽을 가져왔는데, 실습한 이미지는 인식해야 하는 부분이 5각형이다. opencv drawContours 함수 살펴보기 InputOutputArray: image 보정하려는 이미지 InputArrayOfA

2023년 9월 6일
·
0개의 댓글
·
post-thumbnail

한글 OCR with opencv, pytesseract - 시작

OCR Optical Character Recognition 텍스트 이미지를 ai 컴퓨터가 읽을 수 있는 포맷의 텍스트로 변환하는 과정 오픈소스 라이브러리 tesseract easyOCR pororo ... 많은 선택지가 있지만, 설치가 간편하고 사용 예가 많은 tesseract를 pytesseract와 사용하기로 결정 tesseract/pytesseract 설치 tesseract 설치 한글팩 설치 가상환경 생성 activate alias 설정 사용할 관련 라이브러리 설치 실행 라이브러리 import 이미지1 ![](https://velog.velcdn.com/images/yun5/post/678012a6-b84e-4e79-abc

2023년 9월 6일
·
0개의 댓글
·
post-thumbnail

OCR 찾아 삼만리

최근에 갑작스럽게 시작하게 된 프로젝트의 백엔드를 담당하면서 글자 인식에 대해 자세히 알아보게 되었다. 프로젝트 주제 자체는 굉장히 단순한데, 바로 영수증을 찍으면 자동으로 거래 날짜, 가게 이름, 결제 금액 등을 구글 스프레드시트에 작성하는 서비스이다. > 작년에 교회에서 회계를 하면서 모든 것이 아날로그 (수기로 장부 작성, 실물 영수증 보관 등) 인 것에 너무나 감동을 먹은 나머지 현재, 그리고 미래의 회계를 위해 자동화 서비스를 생각하게 되었다. 웹 개발도 진행중에 있지만, 무엇보다 나에게 중요한 것은 바로 영수증 사진에서 글자를 어떻게 추출할 것인가였다. 📄 OCR? > Optical Character Recognition (OCR), 광학 문자 인식 - 나무위키 OCR은 이미지의 글자를 인식하여 기계가 읽을 수 있는 텍스트 데이터로 치환하는 과정이다. 이미지 파일에서는 텍스

2023년 8월 12일
·
1개의 댓글
·
post-thumbnail

Python OCR tesseract

![](https://velog.velcdn.com/images/agnusdei1207/post/a7f713b9-9c48-469e-801a-dd

2023년 7월 5일
·
0개의 댓글
·

Tesseract로 자연어 처리하기 - ch01

📖Tesseract란? > - 초기 HP 연구소는 개발 문자인식(OCR)으로 개발됨 C언어와 C++을 혼합하여 만들었으나, 현재 C++통합 2000년 초반 HP로부터 지원 중단되어 프로젝트가 없데이트였으나, 2006년 이후 우리의 갓 구글이 다시 지원해줘서 업데이트를 시작했다. Tesseract 3.x 단순 알고리즘을 통한 문자 인식 Tesseract 4.x 부터 학습 기반으로 딥러닝 알고리즘 적용 적용된 알고리즘 LSTM 최근 딥러닝 기술들은 학습데이터를 기반으로 정확도를 높이는 방법을 활용 Tesseract는 문자인식을 위한 학습한 데이터 제공 📖 Tesseract가 제공하는 학습모델 3가지 📌 Tessdata 학습을 위한 기본 모델 📌 Tessdata-fast 정확도보단 인식 속도들 중심으로 개발된 학습모델 연산을 위한 데이터 타입을 Integer로 사용하여, 소수점 이하 연산 결과를 포기

2023년 6월 13일
·
0개의 댓글
·
post-thumbnail

react 클립보드에 저장한 이미지를 텍스트로 변환하기 (tesseract.js)

https://github.com/heehminh/react-image-to-text 수학 학원에서 아르바이트를 하는데 시험지를 보고 타자로 쳐 문서화하는 일이 주된 작업이다. 직접 치고 있는게 비효율적이라고 여겨 해당 서비스를 만들게되었다. 1. 클립보드에서 이미지 추출하기 클립보드에서 이미지를 추출하기 위해서는 브라우저에서 제공하는 Clipboard API를 사용할 수 있다. 이 API를 사용하여 클립보드에서 이미지를 추출한 후, 추출된 이미지를 사용하여 텍스트를 추출하는 OCR(광학 문자 인식) 기술을 이용할 수 있다. 클립보드에 데이터를 복사하는 방법 클립보드에서 데이터를 가져오는 방법 이 이미지를 클립보드에 저장한 뒤 수

2023년 5월 12일
·
0개의 댓글
·

TesseractOCR, EasyOCR 실행과 학습

프로젝트 개요 먼저 우리의 프로젝트를 간략하게 소개하자면, 티켓 정보를 바탕으로 하는 공연 후기 서비스이다. 따라서 유저의 티켓 정보를 필요로 하며, 이 글에서는 다음과 같은 티켓 사진에서 공연 일시와 장소, 좌석 정보를 가져오기 위한 OCR 작업을 소개하고자 한다. TesseractOCR Tesseract는 1985년에서 1994년 사이에 독점 소프트웨어로 개발되었고, 2006년부터 구글에서 후원하고 있다. 여러 언어를 지원하고, 오픈소스로 현재까지도 많이 사용되고 있다. Tesseract 버전3은 문자 패턴을 인식하여 작동하였으며,

2022년 5월 11일
·
0개의 댓글
·

tesseract - 이미지에서 text 추출

설치 python module과 컴퓨터에 실행파일 둘다 설치 필요 for mac 코드 python 에서 사용예제 https://developer.ibm.com/tutorials/document-scanner/ https://m.blog.naver.com/samsjang/220694855018 한글 인식률이 좋기위한 조건 여러줄 인식률 떨어짐. 한줄씩 끊어서 사용 배경에 노이즈가 없어야함. pytesseract 사용하기위한 설정 tesseract 4.0 다운로드 https://github.com/tesseract-ocr/tesseract/wiki > ubuntu16 기준임. > ubuntu18 도 동일한듯 kor 언어 데이터 다운로드 kor.traineddata 다운로드 (https://github.com/tesseract-ocr/tesseract/wiki/Data-Files) <- 3.04 버전용. 터미

2022년 3월 23일
·
0개의 댓글
·
post-thumbnail

Tesseract OCR -pytesseract

pytesseract = 지난 시간에는 무심코 임포트 해왔던 pytesseract! 하지만 그냥 지나가기 에는 OCR에서 너무 중요한 개념이 함축된 라이브러리 이기에 자세히 다뤄보려고 한다. pytesseract란? Python-tesseract는 Google의 Tesseract-OCR Engine 용 Wrapper 입니다 . 또한 jpeg, png, gif, bmp, tiff 등을 포함하여 Pillow 및 Leptonica 이미징 라이브러리에서 지원하는 모든 이미지 유형을 읽을 수 있으므로 tesseract에 대한 독립 실행 형 호출 스크립트로도 유용합니다. 또한 스크립트로 사용되는 경우 Python-tesseract는 인식 된 텍스트를 파일에 쓰는 대신 인쇄합니다. 기능 get_languages Tesseract OCR에서 현재 지원하는 모든 언어를 반환합니다. gettesseractversion 시스템에 설치된 Tesseract 버전을 반환합니다. -

2022년 3월 23일
·
0개의 댓글
·
post-thumbnail

Tesseract OCR 사용하기

오늘은 지금 진행 하고있는 프로젝트에 OCR기능을 추가하고 싶어서 찾아보았던 OCR인 Tesseract OCR 을 직접 코랩에서 실습해보며 간단한 사용법을 알아보려 한다! Tesseract OCR? = 테서랙트는 Apache2.0 라이선스에 사용할 수 있는 오픈 소스 텍스트 인식 엔진이다. UTF-8를 지원하며 100개 이상의 언어를 지원한다. 사용시 단점으로는 GPU:-1 즉 GPU를 사용하지 않아 속도가 느리다. Python Tesseract? = Python Tesseract는 Google의 Tesseract-OCR Engine을 래핑한 라이브러리이다! 필수 프로그램 다운로드 = Tesseract 다운로드 !sudo apt install tesseract-ocr pytessera

2022년 3월 22일
·
2개의 댓글
·
post-thumbnail

메이플스토리 경뿌 알리미 대작전 - 0

메이플스토리를 해 본 사람들은 잘 알겠지만 그 곳에는 경뿌 문화가 존재한다. 그게 뭔데 씹덕아 img1 이 아이템을 사용하면 같은 맵에 있는 모든 유저가 버프를 받게된다. 따라서 되도록 많은 사람들을 모으고 사용하기 위해서, 쓰기 전에 어디어디로 모이세요~ 라는 식으로 안내를 하는 훈훈한 문화가 있다. img2

2022년 2월 4일
·
1개의 댓글
·
post-thumbnail

[python] Tesseract-OCR 글자 인식

OCR 엔진을 활용한 글자 인식 사전작업 tesseract 프로그램 설치 https://github.com/UB-Mannheim/tesseract/wiki tesseract 환경변수 등록 2-1. cmd로 tesseract 설치 확인 한글팩 설치⭐ 다운 받아야하는 학습된 한글 데이터 파일명: kor.traineddata 파일 위치: tesseract가 설치된 경로 C:\Program Files\Tesseract-OCR\tessdata https://github.com/tesseract-ocr/tessdata/ 필요한 라이브러리 패키지 설치 본작업 결과 이미지 해상도의 문제인지 인식률에는 조금 문제가 있다...�

2021년 12월 6일
·
1개의 댓글
·
post-thumbnail

[python] 이미지 전처리

1. 이미지 전처리 과정 에지 검출 투시변환 입력 영상으로 사용한 영수증의 외곽선은 크기가 가장 큰 4개의 외곽선으로 이루어져 있다는 점을 이용해 외곽선을 크기순으로 정렬 영상 이진화 잡음제거 에지 정보를 유지하며 잡음을 효과적으로 제거하기 위해 양방향 필터 수행 모폴로지 연산 2. 결과 이미지

2021년 12월 6일
·
0개의 댓글
·
post-thumbnail

[python] Tesseract OCR

OCR(Optical Character Recognition)은 광학 문자 인식. 즉 2차원 이미지에서 텍스트를 추출해서 변환하는 것을 말한다. OCR은 정확한 작동을 위한 다음과 같은 하위 프로세스를 갖는다. 이미지 사전 처리 텍스트 위치 지정 문자 분할 문자 인식 사후 처리 Tesseract는 Apache 2.0 라이센스로 제공되는 구글의 광학 문자 인식 엔진이다. 설치는 여기 (윈도우 기준) tesseract 설치가 끝났다면 pytesseract와 Pillow를 설치해야 한다. pytesseract 설치 Pillow 설치 기본 코드 ''안에 설치한 경로값을 넣으면 된다. 보통 아무 설정값도 건드리지 않았다면 C:\Program Files\Tesseract-OCR\tesseract.exe 요거일 것이다. 이미지

2021년 11월 10일
·
0개의 댓글
·
post-thumbnail

2021 AI 비즈니스 모델 캔버스

01. 프로젝트 개요 및 목적 > 대출 진행 시 본인 인증과 이를 근거로 신분증 및 운전면허증을 첨부하게 되어있다. 또한, 중고차 담보 대출 진행 시 대출 신청서와 함께 담보 차량의 사진을 첨부한다. 심사 단계에서 차량 존재 여부, 차종, 손상 여부 등을 담당자가 육안으로 검증한다. 이 과정에서 대출을 신청한 차량과 실제 차량이 다른 경우도 발견된다. 사람이 검수하는 단계를 거치다 보니 많은 인력과 시간도 소요됐다. 이번 프로젝트를 통해 반복적인 개인 정보 입력 과 대출 심사와 차량 검수 단계를 자동화하여 정확성을 높이고 프로세스를 개선하려한다. 더불어 대출 사기 및 검수 과정에서의 오류 가능성도 근본적으로 차단하는 효과도 기대된다. ![](https://images.velog.io/images/wijihoon123/post/ac8082da-e87f-49b7-8ebc-aa09f0c10380/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%

2021년 8월 28일
·
0개의 댓글
·

국문 OCR 오픈소스 소개

OCR은 Digitization의 관문 OCR의 역사는 오래되었으나, 근래들어 기업들의 활용도가 높아 지고 있으며 시장 역시 2025년 133억 달러에 이를 것을 예상할 정도로 커지고 있습니다. OCR이 중요한 이유는 레거시 산업(전통적인 농업, 제조, 서비스 등)의 대부분의 데이터는 아날로그화되어있기 때문입니다. OCR은 이를 Digitization하는 역할을 수행하는 주요한 도구가 됩니다. 기존의 아날로그 데이터를 디지털화하는 것을 사람이 해서는 비용과 시간측면에서 너무 과도하게 소요되기도 하거니와 실제로는 불가능에 가까울 것입니다. 몇 가지 OCR 도구 소개 사용부터 오픈소스 또 클라우드 기반의 서비스들까지 다양한 OCR 도구가 존재합니다. 제각기 특징과 성능이 다르기 때문에 모든 툴의 성능을 측정해 본것은 아니며 정확한 지표는 아니지만

2020년 7월 23일
·
1개의 댓글
·