쉽게 배우는 파이썬 데이터 분석 - 4

esc247·2022년 6월 26일
0

Data Analysis

목록 보기
7/10
post-thumbnail

텍스트 마이닝_text mining

  • 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법

형태소 분석_morphology analysis

  • 문장을 구성하는 어절들이 어떤 품사인지 파악
  • KoNLPy 패키지 이용하면 한글 텍스트 형태소 분석 가능
  • 파일 불러오기 - 불필요한 문자 제거하기 - 명사 추출하기 - 단어 빈도표 반들기 - 단어 빈도 막대 그래프 만들기 ( - 워드 클라우드 만들기)
import re
temp = re.sub('[^가-힣]',' ',temp) 
# 한글 아닌 모든 문자 공백으로 바꿈.
  • [^가-힣] : 한글이 아닌 모든 문자를 의미하는 정규 표현식.
# 명사 추출
import konlpy
hannanum = konply.tag.Hannanum()
temp = hannanum.nouns(temp)
# 데이터 프레임으로 변환
import pandas as pd
df_word = pd.DataFrame({'word':nouns})
# 데이터 프레임에 글자 수(count) 추가
df_word['count'] = df_word['word'].str.len()
df_word = df_word.groupby('word',as_index=False)
				.agg(n=('word','count'))	
				.sort_values('n', ascending = False)
# 빈도 상위 20개 추출 후 막대 그래프 만들기
plt.rcParams.update({'font.family' : 'Malgun Gothic',
					'figure.dpi' : 120,
					'figure.figsize' : [6.5,6]})
sns.barplot(data =top20, y='word' ,x='n')                   
profile
막상 하면 모르니까 일단 하자.

0개의 댓글