스터디에서 공유받은 코드 중 일부
전체적인 로직과 흐름에 대해 이해를 못하고 있어 엄청 헤매고 있다.
다음 스터디에서 관련 내용에 대해 팀원이 정리해주시기로 했는데
사전에 공부를 해야 정리해주는 내용도 이해가 잘 될 것 같다...
▼여기까지는 어찌어찌해서 이해하고 있다...
# file이름과 그 안에 내용들 매칭해서 데이터프레임 생성
df = pd.DataFrame(columns=['file','text'])
for pdf in os.listdir('Factiva-2020'):
p = 'C:/Users/skanj/Desktop/스터디/oo님 데이터/Factiva-2020/'
path = p + pdf
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr,retstr, laparams = laparams)
fp = open(path,'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
pagenos = set()
for page in PDFPage.get_pages(fp,pagenos, caching = True,check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
df = df.append({'file':pdf,'text':text},ignore_index=True)