시각화로 결과 요약하기 - Seaborn : 4-4. 뭉게뭉게 단어구름, Wordcloud

임동윤·2022년 9월 30일
0

웹 스크래핑 기초

목록 보기
19/20
post-thumbnail

Wordcloud

  • 자주 등장하는 텍스트를 중요도나 인기도를 고려해 표현한 것

Word Cloud를 만들기 위한 과정

  • 자연어 문장에서 키워드를 추출
  • 키워드가 등장한 빈도를 측정
  • 전처리한 정보와 wordcloud 라이브러리를 바탕으로 Wordcolud 생성

Wordcloud 만들어보기

  • wordcloud는 파이썬의 텍스트 클라우드 라이브러리입니다. 이를 기반으로 텍스트 구름을 그릴 수 있습니다.
    konlpy는 한국어 형태소 분석기 라이브러리로, 주어진 문장에서 명사 등을 뽑아 내는 데에 사용할 수 있습니다.
  • pip 를 이용하여 필요한 라이브러리를 설치합니다.
%pip install wordcloud
%pip install konlpy

Wordcloud 만들기

  • wordcloud를 만드는 과정은 다음과 같습니다.
    1. KoNLPy 라이브러리로 한국어 문장을 전처리
    2. Counter를 이용해 빈도수 측정
    3. WordCloud를 이용해 시각화
  • 필요한 라이브러리리를 호출합니다.
# 시각화에 쓰이는 라이브러리
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 횟수를 기반으로 딕셔너리 생성
from collections import Counter

# 문장에서 명사를 추출하는 형태소 분석 라이브러리
from konlpy.tag import Hannanum
  • wordcloud 를 만드는데 사용할 텍스트 입니다.
national_anthem = """
동해물과 백두산이 마르고 닳도록
하느님이 보우하사 우리나라 만세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
남산 위에 저 소나무 철갑을 두른 듯
바람 서리 불변함은 우리 기상일세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
가을 하늘 공활한데 높고 구름 없이
밝은 달은 우리 가슴 일편단심일세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
이 기상과 이 맘으로 충성을 다하여
괴로우나 즐거우나 나라 사랑하세
무궁화 삼천리 화려 강산
대한 사람 대한으로 길이 보전하세
"""

KoNLPy 라이브러리로 한국어 문장을 전처리

  • Hannanum 객체를 생성한 후, .nouns()를 통해 명사를 추출합니다.
hannanum = Hannanum()
nouns = hannanum.nouns(national_anthem)
words = [noun for noun in nouns if len(noun) > 1]

words[:10]

Counter 를 이용해 빈도수 측정

  • counter를 이용해 각 단어의 개수를 세줍니다.
counter = Counter(nouns)
print(counter)

WordCloud를 이용해 시각화

  • WordCloud를 이용해 텍스트 구름을 생성합니다.
wordcloud = WordCloud(
    font_path = "C:\Windows\Fonts/H2GPRM.TTF",
    background_color = "white",
    width = 1000,
    height = 1000,
)
img = wordcloud.generate_from_frequencies(counter)

plt.imshow(img)


profile
AI Tensorflow Python

0개의 댓글