Count-based Representation

TaeWoo Lee / Kris·2022년 3월 2일
0

자연어(Natural Language)

  • 자연어 혹은 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념

자연어처리(Natural Language Processing, NLP)

  • 자연어를 컴퓨터로 처리하는 기술
  • 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합

NLP 응용사례

  • 텍스트 요약
  • 자동 질의응답 시스템
  • 대화 시스템
  • 기계번역

벡터화 : 컴퓨터는 자연어 자체를 받아들일 수 없음으로 컴퓨터가 이해할 수 있도록 벡터로 만들어주어야 함

  • 등장횟수 기반 : 단어가 문서에 등장하는 횟수
  • Bag-of-Words(TF)
    • 단어들의 순서는 고려하지 않고 단어들의 빈도만 고려한 수치화 표현 방법
    • CountVectorizer
  • TF-IDF
    • TF : 특정 단어의 등장 빈도
    • IDF : 특정 단어가 나타나는 문서 수
    • TF-IDF : 많이 등장하는 단어들에게는 일종의 패널티를 주어서 단어 빈도의 스케일을 맞춰주는 기법
  • 분포 기반 : 타겟 단어 주변에 있는 단어를 기반
    • Word2Vex
      • 단어를 바로 벡터로 변환
      • 벡터로 바꾸어야 유사도 같은 계산이 가능함
    • fastText
      • n의 값에 따라 단어가 얼마나 분리되는지 결정

전처리

  • 내장메소드
    • 대소문자 통일, 구두점 없앰
  • 정규표현식
    • 특정 규칙이 있는 문자열 집합을 추출할 때 자주 사용되는 기법
  • 불용어 처리
    • 분석에 도움이 되지 않는 단어
  • 통계적 트리밍
    • 단어(토큰)의 분포를 나타냈을 때 전체 분포 중 몇%(예: 0.01%) 아래까지는 분석에 사용하지 않도록 삭제하는 방법이다.
  • 어간 추출
    • 주로 속도가 중요할때 (단어를 자름)
  • 표제어 추출
    • 사전의 기본 형태
profile
일단 저지르자! 그리고 해결하자!

0개의 댓글