4-4. 뭉게뭉게 단어구름, Wordcloud

data_hamster·2023년 4월 21일
0

학습주제
worldcloud를 이용해서 텍스트 구름을 만들어봅시다.

학습내용


1. KoNLPy 라이브러리로 한국어 문장을 전처리
2. Counter를 이용해 빈도수 측정
3. WorldCloud를 이용해 시각화

자바 설치 오류로 hannanum = Hannanum() 초기화가 되지 않았는데, 자바 최신버전을 설치해도 되지 않았었다. 해당 링크를 보고 문제를 해결하였다.
konply, 자바 문제 해결


텍스트를 기반으로 그림을 그리는 걸 자주 볼 수있다. 중요도나 인기를 고려해서 시각적 전달이 잘 되는 모습이다.

이후 빈도를 측정한다.

전처리한 정보를 바탕으로 worldcloud 생성

빈도수와 키워드는 counter를 사용할 예정.

konlpy?

  • 형태소 분석을 통해 원하는 키워드를 뽑아내는 라이브러리

라이브러리 로드

예시 문장

우리가 여기서 엄청난 자연어 처리에 대한 지식이 필요한 것은 아니다.



nouns를 출력한 모습이다. 화, 길, 위, 듯 등을 명사로 인식한 모습이다. 이에, 이를 제외한 최소 2글자 이상의 단어를 리스트 컴프리핸션으로 출력한다.

counter를 이용해 각 단어의 갯수를 세주면,

키: 문자열, 값: 빈도를 인자로 받는 wordcloud.generate_from_frequencies(counter)를 사용함.


그러나 단어가 전부 깨진 모습이다. wordcloud를 사용하기 위해선, 컴퓨터에 설치되어 있는 한국어 폰트를 인자로 넣어주어야한다.

한글엽서체를 사용한 모습이다.

무궁화, 삼천리, 강산 순으로 많이 나왔다는 것을 알 수 있다.
그 외, 배경 색, 크기 등을 설정하였다.

파워포인트에도 사용할 수 있을정도로 깔끔한 모습이다.

profile
반갑습니다 햄스터 좋아합니다

0개의 댓글