파이썬 라이브러리
Tabula-py
- Tabula-py는 Java의 Tabula 라이브러리를 기반으로 PDF에서 표를 추출에 사용
- 간단하고 사용이 쉬움
- python에서 간단한 인터페이스 제공
PyPDF2
- PyPDF2는 PDF 파일을 다루는 데 사용되는 라이브러리로, 특히 텍스트 추출에 유용
- 기본적인 텍스트 추출, 간단한 작업 사용
- 표, 복잡한 레이아웃에 제한적
pdfplumber
- pdfplumber는 PyPDF2를 기반
- 텍스트 추출과 함께 표를 추출하는 기능도 제공
- 텍스트 , 표 추출가능, 좀 더 정확한 추출 가능
- 복잡한 레이아웃, 큰 파일일 때 속도가 다소 느림
camelot-py
- 표의 특성에 따라 여러 가지 추출 방법을 지원
- 복잡한 레이아웃에서 표 추출을 상대적으로 잘함, 여러 추출방법 제공
- PyPDF2기반 라이브러리보다 무거운 의존성, 상대적으로 낮은 정확성