1. 유연성
2. 커스터마이징
3.활발한 개발
복잡성
상대적으로 복잡한 인터페이스를 가지고 있어 학습이 다소 어려울 수도 있음
문서 구조의 다양성 처리 어려움
PDF 문서의 다양한 구조 및 레이아웃에 따라 특정 문서에서 정보를 추출하는 것이 어려울 수 있음
해당 단점은 pdf라는 자료 특성상, pdf를 추출하는 다른 라이브러리들에게도 해당하는 단점
pip install pdfminer.six
from pdfminer.high_level import extract_text
def extract_text_from_pdf(pdf_path):
text = extract_text(pdf_path)
return text
# PDF 파일 경로 설정
pdf_file_path = 'example.pdf'
# 텍스트 추출
extracted_text = extract_text_from_pdf(pdf_file_path)
# 추출된 텍스트 출력
print(extracted_text)