[11주차] 언어지능 딥러닝 2

siyeon kim·2022년 10월 27일

aivle 2기 kt aivle 리뷰인증스터디

kt aivle

목록 보기

16/24

1) 텍스트 마이닝

1. 문서 클러스터링

주제별로 묶자
비지도 학습
DBSCAN, K-means Clustering

2. 문서 분류

스펨메일 분류, 문서 카테고리 분류, 감성 분석, 의도 분석
지도학습

3. 문서 요약

3-1. 추출요약

키워드들이나 핵심 문자 선택하여 문서 요약
통계 기반 작동

3-2. 추상요약

새로운 단어를 사용함으로써 새로운 문장으로된 요약문 생성

4. TextRank

그래프 기반의 text summarization
대표적인 그래프 기반 랭킹 알고리즘인 pagerank를 사용하여 문서 내의 키워드, 핵심 문장 추출
단어그래프 생성(co-occurrence graph)
생성괸 그래프에 pagerank를 학습하여 각 노드의 랭킹을 계산
이를 기반으로 대표 키워드 , 핵심 문장 선택

5. 감성 분석

5-1. VADER

사전과 규칙기반의 감성분석툴

6. 워드임베딩

6-1. 전통적인 단어 표현방식

one hot encoding
단어의 개수 벡터의 크기
ex) 고양이 <1,0,0>, 토끼 <0,1,0>, 강아지 <0,0,1>

6-2. word-word co-occurrence matrix

문맥정보를 문서대신 주변단어로 줄여보자
저장공간이 많이 필요
단어가 늘어날수록 차원이 커짐
===> 워드임베딩

6-3. 워드임베딩

중요한 정보만 남기고 적은 차원에서 단어표현
word2vec(skip-gram,CBOW)

6-4. word2vec

원문의 text data필요
비지도학습
CBOW(continuous bag of word) : 주변 단어를 입력으로 받아서 중심단어를 예측하는 방법, 슬라이딩 윈도우 방식으로 구축
skip-gram : 중심단어로 부터 주변단어 예측 방법

소프트웨어 엔지니어

이전 포스트

[11주차]자연어처리 요소 기술

다음 포스트

[kt aivle 2기]1반 study

0개의 댓글