멋사 ai 스쿨 TIL - (38) 자연어 처리

eve·2022년 12월 13일
0

likeLion

목록 보기
41/45
  1. np.array로 되어있는 이미지 자료를 다시 np.array로 바꾸어주는 이유
  • 리스트 안에는 np.array로 작성되어 있지만, 여러 장의 이미지를 하나로 만들 때 파이썬 리스트에 작성해주었다.
  • 이미지 여러 장을 하나의 변수에 넣어주었을 때 해당 변수의 데이터타입은 파이썬 리스트.
  • train_test_split에 사용하기 위해, 계산 편의를 위해 넘파이 형태로 변경해주었다.
  1. 정규 표현식
    문자, 숫자를 제외한 특수문자를 제외할 때 주로 사용합니다. 특정 패턴으로 텍스트 전처리 시에도 사용합니다. 정규표현식은 그 자체로 프로그래밍 언어입니다.

  2. NLTK, Spacy
    대표적인 텍스트 전처리 도구이나, 한글을 지원하지 않음

  3. Stemming, Lemmatization

  • 한국어 형태소 분석기 제공하는것도, 그렇지 않은 것도 존재.
  • 원형을 어떻게 추출할 지에 대한 방법을 다루는 것.
  1. KoNLPy
  • 박사학위 논문으로 만들었던 도구.
  • 자바, C, C++ 등으로 만들어진 형태로 분석기
  • 파이썬은 접착제 언어이기 때문에, 다른 언어로 만들어진 형태소 분석기를 파이썬으로 래핑해서 사용
profile
유저가 왜 그랬을까

0개의 댓글