텍스트 요약(Text Summarization) 개념(수정중)

안민기·2023년 3월 2일

개념 : 추상적 vs 추출적

1. 추출적 요약 (Extractive)

원문에서 중요한 핵심 문장 또는 단어를 몇 개 뽑아서 이들로 구성된 요약문 생성

방법 : TextRank(텍스트 랭크)알고리즘
문장 임베딩 기반 텍스트 랭크(딥러닝을 이용한 자연어 처리 입문)

TextRank목표 : 본문에서 중요한 문장 추출하기

불용어 제거 후 문장단위로 토큰화

토큰 벡터를 평균내서 문장 벡터를 얻음(영벡터가 생길 수 있음)

문장 벡터들 사이의 코사인 유사도 행렬 만들기(문장개수 x 문장개수)

페이지랭크 알고리즘으로 유사도 행렬로 각 문장의 Score를 구할 수 있음

Score를 기준으로 상위 n개로 문서의 요악문 생성

참고 : 페이지랭크는 구글의 검색 알고리즘 , 해당 페이지가 얼마나 중요한지 나타냄

단점 : 원문에 존재하는 문장(단어)으로 구성되므로 표현력이 떨어짐

2. 추상적 요약 (Abstractive)

원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성 , 자연스러움

방법 : seq2seq구조의 모델

단점 : 학습용 데이터 구축 어려움

Benchmark Dataset

Gigaword : 단일 문장 요약

CNN/Daily Mail : 다중 문장 요약

현재는 주로 CNN/Daily mail을 많이 쓰는 듯
Gigaword sota모델은 Top모델이 20,21년 모델이 많다면
CNN/Daily sota모델은 대부분 22년 모델임

평가지표 : ROUGE 1 , ROUGE 2 , ROUGE L

질문 : BERT계열 vs GPT계열

어떤 사건이나 인물의 요약을 위해선 어떤 모델을 써야할까..?

안민기

Trendy AI Developer

다음 포스트