NLTK

素人·2022년 1월 16일

Data

목록 보기

9/30

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.tag import pos_tag
from nltk.stem import WordNetLemmatizer
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

*스터디 멤버의 논문 작성과 관련하여 데이터 요청이 있어 알게 된 새로운 데이터 세계:)

NLTK(Natural Language Toolkit)은 자연어 처리 및 문서 분석용 파이썬 패키지다. 주요 기능은 '말뭉치', '토큰 생성', '형태소 분석', '품사 태깅'을 꼽을 수 있다.

말뭉치(corpus)?
자연어 분석 작업을 위해 만든 샘플 문서 집합. 문서 뿐만 아니라 품사나 형태소 등의 보조적 의미를 추가하고 쉬운 분석을 위해 구조적인 형태로 정리해 놓은 것을 포함. 말뭉치 자료는 설치시에 제공되지 않고 download 명령으로 사용자가 다운로드 받아야 함.

토큰(token) 생성?
긴 문자열을 분석하기 위해 작은 단위로 나누어야 하는데 이 문자열 단위를 토큰이라고 하고 이렇게 문자열을 토큰으로 나누는 작업을 토큰 생성(tokenoizing)이라고 함.
문자열을 토큰으로 분리하는 함수를 토큰 생성 함수(tokenizer)라고 하며 토큰 생성 함수는 문자열을 입력받아 토큰 문자열의 리스트를 출력함.

형태소(morpheme) 분석?
단어로부터 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성을 파악하고 이를 이용하여 형태소를 찾아내거나 처리하는 작업. 어간 추출이나 원형 복원, 품사 부착과 같은 작업을 예로 들 수 있다.

품사(POS, part-of-speech) 태깅?
NLTK에서는 펜 트리뱅크 태그 세트(Penn Tree Tagset)를 이용하여 부착하는 작업을 한다. 사용하는 품사의 예는,
NNP : 단수 고유명사
VB : 동사
VBP : 동사 현재형
TO : to 전치사
NN : 명사(단수형 혹은 집합형)
DT : 관형사

링크텍스트

素人

매일 조금씩:)

이전 포스트

데이터 형태

다음 포스트

NLTK

Data

데이터 형태

머신러닝 개념 정리

0개의 댓글