[PDF] PDF에서 표 추출하기

이상해씨·2024년 1월 13일
0

Data_collection

목록 보기
3/4

파이썬 라이브러리

Tabula-py

  • Tabula-py는 Java의 Tabula 라이브러리를 기반으로 PDF에서 표를 추출에 사용
  • 간단하고 사용이 쉬움
  • python에서 간단한 인터페이스 제공

PyPDF2

  • PyPDF2는 PDF 파일을 다루는 데 사용되는 라이브러리로, 특히 텍스트 추출에 유용
  • 기본적인 텍스트 추출, 간단한 작업 사용
  • 표, 복잡한 레이아웃에 제한적

pdfplumber

  • pdfplumber는 PyPDF2를 기반
  • 텍스트 추출과 함께 표를 추출하는 기능도 제공
  • 텍스트 , 표 추출가능, 좀 더 정확한 추출 가능
  • 복잡한 레이아웃, 큰 파일일 때 속도가 다소 느림

camelot-py

  • 표의 특성에 따라 여러 가지 추출 방법을 지원
  • 복잡한 레이아웃에서 표 추출을 상대적으로 잘함, 여러 추출방법 제공
  • PyPDF2기반 라이브러리보다 무거운 의존성, 상대적으로 낮은 정확성
profile
공부에는 끝이 없다

0개의 댓글