[11주차] 언어지능 딥러닝 2

siyeon kim·2022년 10월 27일
0

kt aivle

목록 보기
16/24

1) 텍스트 마이닝

1. 문서 클러스터링

  • 주제별로 묶자
  • 비지도 학습
  • DBSCAN, K-means Clustering

2. 문서 분류

  • 스펨메일 분류, 문서 카테고리 분류, 감성 분석, 의도 분석
  • 지도학습

3. 문서 요약

3-1. 추출요약

  • 키워드들이나 핵심 문자 선택하여 문서 요약
  • 통계 기반 작동

3-2. 추상요약

  • 새로운 단어를 사용함으로써 새로운 문장으로된 요약문 생성

4. TextRank

  • 그래프 기반의 text summarization
  • 대표적인 그래프 기반 랭킹 알고리즘인 pagerank를 사용하여 문서 내의 키워드, 핵심 문장 추출
  • 단어그래프 생성(co-occurrence graph)
  • 생성괸 그래프에 pagerank를 학습하여 각 노드의 랭킹을 계산
  • 이를 기반으로 대표 키워드 , 핵심 문장 선택

5. 감성 분석

5-1. VADER

  • 사전과 규칙기반의 감성분석툴

6. 워드임베딩

6-1. 전통적인 단어 표현방식

  • one hot encoding
  • 단어의 개수 벡터의 크기
    ex) 고양이 <1,0,0>, 토끼 <0,1,0>, 강아지 <0,0,1>

6-2. word-word co-occurrence matrix

  • 문맥정보를 문서대신 주변단어로 줄여보자
  • 저장공간이 많이 필요
  • 단어가 늘어날수록 차원이 커짐
    ===> 워드임베딩

6-3. 워드임베딩

  • 중요한 정보만 남기고 적은 차원에서 단어표현
  • word2vec(skip-gram,CBOW)

6-4. word2vec

  • 원문의 text data필요
  • 비지도학습
  • CBOW(continuous bag of word) : 주변 단어를 입력으로 받아서 중심단어를 예측하는 방법, 슬라이딩 윈도우 방식으로 구축
  • skip-gram : 중심단어로 부터 주변단어 예측 방법
profile
사회에 선한 영향을 미치고 싶은 개발자

0개의 댓글