LDA 진행 중

素人·2022년 1월 25일
0

Data

목록 보기
14/30

스터디에서 공유받은 코드 중 일부

전체적인 로직과 흐름에 대해 이해를 못하고 있어 엄청 헤매고 있다.
다음 스터디에서 관련 내용에 대해 팀원이 정리해주시기로 했는데
사전에 공부를 해야 정리해주는 내용도 이해가 잘 될 것 같다...

▼여기까지는 어찌어찌해서 이해하고 있다...

# file이름과 그 안에 내용들 매칭해서 데이터프레임 생성

df = pd.DataFrame(columns=['file','text'])

for pdf in os.listdir('Factiva-2020'):

    p = 'C:/Users/skanj/Desktop/스터디/oo님 데이터/Factiva-2020/'
    path = p + pdf

    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr,retstr, laparams = laparams)
    fp = open(path,'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pagenos = set()

    for page in PDFPage.get_pages(fp,pagenos, caching = True,check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()

    df = df.append({'file':pdf,'text':text},ignore_index=True)
profile
매일 조금씩:)

0개의 댓글