natural language processing #1

be1le·2022년 3월 21일
7
post-thumbnail

자연어란?

자연어(natural language)란 우리가 일상 생활에서 사용하는 언어를 말합니다. 자연어 처리(natural language processing)란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말합니다.

자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야입니다.

실습툴 설치하기

아나콘다(Anaconda) 설치

링크 : https://www.anaconda.com/distribution/
64 비트를 설치

아나콘다 프롬프트를 열었다면 아나콘다 프롬프트에 아래의 커맨드를 입력하여 아나콘다 파이썬 패키지를 전부 최신 버전으로 업데이트 해준다.

구글의 코랩(Colab)

Colab 주소 : https://colab.research.google.com/
구글의 Colab에 접속하는 방법은 위의 URL을 통해서 접속하거나, 구글(http://www.google.co.kr/)에서 Colab이라고 검색해서 접속할 수 있습니다.

무료로 GPU 사용하기
딥 러닝에서는 CPU보다는 GPU를 사용합니다. Colab에서 실습할 때의 장점은 GPU를 무료로 사용할 수 있다는 점입니다. GPU가 장착된 컴퓨터가 없는 딥 러닝 입문자들, gpu가 있어도 nvidia제품이 아닌 입문자들은 후에 실습에 차질이 발생할 수 있기에 코랩을 사용한다.

필요 프레임워크와 라이브러리

아나콘다를 설치했다면 기본적으로 Numpy, Pandas, Jupyter notebook, scikit-learn, matplotlib, seaborn, nltk 등이 이미 설치되어져 있습니다. 그래서 아나콘다에 포함되어있지 않은 tensorflow, keras, gensim과 같은 패키지만 별도로 pip를 통해 설치합니다.

하지만 컴퓨터에 아나콘다를 설치하지 않고 단순히 파이썬만 설치된 상태라면 위에서 언급한 모든 패키지를 pip로 설치해야 합니다.

텐서플로우(Tensorflow)

텐서플로우는 구글이 2015년에 공개한 머신 러닝 오픈소스 라이브러리입니다. 머신 러닝과 딥 러닝을 직관적이고 손쉽게 할 수 있도록 설계되었습니다. 뒤의 딥 러닝 실습을 위해서 텐서플로우를 설치해야 합니다.
pip install tensorflow

케라스(Keras)

케라스(Keras)는 딥 러닝 프레임워크인 텐서플로우에 대한 추상화 된 API를 제공합니다. 케라스는 백엔드로 텐서플로우를 사용하며, 좀 더 쉽게 딥 러닝을 사용할 수 있게 해줍니다. 쉽게 말해, 텐서플로우 코드를 훨씬 간단하게 작성할 수 있습니다.
pip install keras

젠심(Gensim)

젠심(Gensim)은 머신 러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리입니다. 이 책에서도 젠심을 사용하여 Word2Vec 등 다양한 모델들을 학습해볼 것입니다.

pip install gensim

사이킷런(Scikit-learn)

사이킷런(Scikit-learn)은 파이썬 머신러닝 라이브러리입니다. 사이킷런을 통해 나이브 베이즈 분류, 서포트 벡터 머신 등 다양한 머신 러닝 모듈을 불러올 수 있습니다. 또한, 사이킷런에는 머신러닝을 연습하기 위한 아이리스 데이터, 당뇨병 데이터 등 자체 데이터 또한 제공하고 있습니다. 사이킷런은 위 패키지들과 달리 아나콘다로 자동 설치되지만 아나콘다를 설치하지 않았다면 아래의 커맨드로 Scikit-learn을 별도 설치할 수 있습니다.

pip install scikit-learn

주피터 노트북(Jupyter Notebook)

주피터 노트북은 웹에서 코드를 작성하고 실행할 수 있는 오픈소스 웹 어플리케이션입니다.

pip install jupyter

설치가 완료되었으면 프롬프트에서 다음 명령어를 통해 주피터 노트북을 실행할 수 있습니다.

jupyter notebook

자연어 처리를 위한 NLTK와 KoNLPy 설치하기

엔엘티케이(NLTK)는 자연어 처리를 위한 파이썬 패키지입니다. 아나콘다를 설치하였다면 NLTK는 기본적으로 설치가 되어져 있습니다. 아나콘다를 설치하지 않았다면 아래의 커맨드로 NLTK를 별도 설치할 수 있습니다.

pip install nltk

NLTK의 기능을 제대로 사용하기 위해서는 NLTK Data라는 여러 데이터를 추가적으로 설치해야 합니다. 이를 위해서는 파이썬 코드 내에서 import nltk 이후에 nltk.download()라는 코드를 수행하여 설치합니다.

In [3]: nltk.download()

KoNLPy 설치

코엔엘파이(KoNLPy)는 한국어 자연어 처리를 위한 형태소 분석기 패키지입니다. 프롬프트에서 아래 커맨드로 설치합니다.

pip install konlpy

reference:딥 러닝을 이용한 자연어 처리 입문(유원준 외 1명)

profile
그저 그런 개발자가 되지 않겠습니다.

2개의 댓글

comment-user-thumbnail
2022년 3월 23일

나중에 챗봇 만들기도 해주세요!

1개의 답글