1) 텍스트 마이닝
1. 문서 클러스터링
- 주제별로 묶자
- 비지도 학습
- DBSCAN, K-means Clustering
2. 문서 분류
- 스펨메일 분류, 문서 카테고리 분류, 감성 분석, 의도 분석
- 지도학습
3. 문서 요약
3-1. 추출요약
- 키워드들이나 핵심 문자 선택하여 문서 요약
- 통계 기반 작동
3-2. 추상요약
- 새로운 단어를 사용함으로써 새로운 문장으로된 요약문 생성
- 그래프 기반의 text summarization
- 대표적인 그래프 기반 랭킹 알고리즘인 pagerank를 사용하여 문서 내의 키워드, 핵심 문장 추출
- 단어그래프 생성(co-occurrence graph)
- 생성괸 그래프에 pagerank를 학습하여 각 노드의 랭킹을 계산
- 이를 기반으로 대표 키워드 , 핵심 문장 선택
5. 감성 분석
5-1. VADER
6. 워드임베딩
6-1. 전통적인 단어 표현방식
- one hot encoding
- 단어의 개수 벡터의 크기
ex) 고양이 <1,0,0>, 토끼 <0,1,0>, 강아지 <0,0,1>
6-2. word-word co-occurrence matrix
- 문맥정보를 문서대신 주변단어로 줄여보자
- 저장공간이 많이 필요
- 단어가 늘어날수록 차원이 커짐
===> 워드임베딩
6-3. 워드임베딩
- 중요한 정보만 남기고 적은 차원에서 단어표현
- word2vec(skip-gram,CBOW)
6-4. word2vec
- 원문의 text data필요
- 비지도학습
- CBOW(continuous bag of word) : 주변 단어를 입력으로 받아서 중심단어를 예측하는 방법, 슬라이딩 윈도우 방식으로 구축
- skip-gram : 중심단어로 부터 주변단어 예측 방법