방법 : TextRank(텍스트 랭크)알고리즘
문장 임베딩 기반 텍스트 랭크(딥러닝을 이용한 자연어 처리 입문)
TextRank목표 : 본문에서 중요한 문장 추출하기
- 불용어 제거 후 문장단위로 토큰화
- 토큰 벡터를 평균내서 문장 벡터를 얻음(영벡터가 생길 수 있음)
- 문장 벡터들 사이의 코사인 유사도 행렬 만들기(문장개수 x 문장개수)
- 페이지랭크 알고리즘으로 유사도 행렬로 각 문장의 Score를 구할 수 있음
- Score를 기준으로 상위 n개로 문서의 요악문 생성
참고 : 페이지랭크는 구글의 검색 알고리즘 , 해당 페이지가 얼마나 중요한지 나타냄
단점 : 원문에 존재하는 문장(단어)으로 구성되므로 표현력이 떨어짐
방법 : seq2seq구조의 모델
단점 : 학습용 데이터 구축 어려움
현재는 주로 CNN/Daily mail을 많이 쓰는 듯
Gigaword sota모델은 Top모델이 20,21년 모델이 많다면
CNN/Daily sota모델은 대부분 22년 모델임
어떤 사건이나 인물의 요약을 위해선 어떤 모델을 써야할까..?