NLTK(Natural Language Toolkit) - 텍스트 분석&시각화

haribo.k·2022년 7월 31일
0

개요

  • 영어 텍스트 분석
  • nltk 패키지 활용

사용 라이브러리: nltk

jupyter notebook에서 import nltk 수행하여 패키지를 다운로드받는다.

불융어제거 사전 import
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
토큰화하기

data2 = nltk.word_tokenizer(data1)

토큰화하기2
from nlkt.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
new_data2 = tokenizer.tokenize(data1)
정규식 사용(축약형)
from nltk.tokenize.regexp import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
new_data3 = tokenizer.tokenize(data1)
품사별로 확인
data3 = nlkt.pos_tag(data2)
불용어 제거

nltk의 기본 stopwords 사전 활용.

data4 = [ eash_word for each_word in new_data3 if each_word not in stopwords.words() ]
단어별 빈도 집계
from collections import Counter
data5 = Counter(data4)
data6 = data5.most_common(100)
data7 = dict(data6)
그래프로 표시
g_data4 = nltk.Text(data4, name="Graph")
g_data4.plot(10) //상위 10개 키워드
profile
frontend engineer. 메모용 블로그

0개의 댓글