Wordcloud
- 자주 등장하는 텍스트를 중요도나 인기도를 고려해 표현한 것
Word Cloud를 만들기 위한 과정
- 자연어 문장에서 키워드를 추출
- 키워드가 등장한 빈도를 측정
- 전처리한 정보와
wordcloud
라이브러리를 바탕으로 Wordcolud
생성
Wordcloud 만들어보기
wordcloud
는 파이썬의 텍스트 클라우드 라이브러리입니다. 이를 기반으로 텍스트 구름을 그릴 수 있습니다.
konlpy
는 한국어 형태소 분석기 라이브러리로, 주어진 문장에서 명사 등을 뽑아 내는 데에 사용할 수 있습니다.
pip
를 이용하여 필요한 라이브러리를 설치합니다.
%pip install wordcloud
%pip install konlpy
Wordcloud 만들기
wordcloud
를 만드는 과정은 다음과 같습니다.
KoNLPy
라이브러리로 한국어 문장을 전처리
Counter
를 이용해 빈도수 측정
WordCloud
를 이용해 시각화
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
from konlpy.tag import Hannanum
- wordcloud 를 만드는데 사용할 텍스트 입니다.
national_anthem = """
동해물과 백두산이 마르고 닳도록
하느님이 보우하사 우리나라 만세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
남산 위에 저 소나무 철갑을 두른 듯
바람 서리 불변함은 우리 기상일세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
가을 하늘 공활한데 높고 구름 없이
밝은 달은 우리 가슴 일편단심일세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
이 기상과 이 맘으로 충성을 다하여
괴로우나 즐거우나 나라 사랑하세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
"""
KoNLPy 라이브러리로 한국어 문장을 전처리
Hannanum
객체를 생성한 후, .nouns()
를 통해 명사를 추출합니다.
hannanum = Hannanum()
nouns = hannanum.nouns(national_anthem)
words = [noun for noun in nouns if len(noun) > 1]
words[:10]

Counter 를 이용해 빈도수 측정
counter
를 이용해 각 단어의 개수를 세줍니다.
counter = Counter(nouns)
print(counter)

WordCloud를 이용해 시각화
WordCloud
를 이용해 텍스트 구름을 생성합니다.
wordcloud = WordCloud(
font_path = "C:\Windows\Fonts/H2GPRM.TTF",
background_color = "white",
width = 1000,
height = 1000,
)
img = wordcloud.generate_from_frequencies(counter)
plt.imshow(img)

