[NLP] 피처 엔지니어링과 NLP 알고리즘

ssook·2021년 8월 23일
0

NLP

목록 보기
3/3
post-thumbnail

📍 피처 엔지니어링과 피처

✅ 피처 엔지니어링

  • 원시 데이터, 또는 코퍼스로부터 NLP 어플리케이션을 개발하거나 NLP 관련 문제를 해결하는 데 도움이 되는 피처를 생성 또는 유도하는 과정
  • 피처 엔지니어링의 목적
    • ML 알고리즘은 소통을 위한 피처의 언어만 이해할 수 있으므로 적절한 속성이나 피처를 찾는 것이 피처 엔지니어링 목적
  • 피처를 생성하면 머신 러닝 알고리즘에 입력해 공급해야 하고, 이들 입력 피처를 처리한 후에 ML 모델을 얻게 됨

✅ 피처

  • NLP 애플리케이션을 만들거나 NLP 애플리케이션의 출력을 예측할 때의 유용한 정보 혹은 측정 가능한 속성으로 정의 가능
  • 머신 러닝 기술을 사용할 때 NLP 애플리케이션을 개발할 때 중요한 역할을 함

📍 파서와 파싱

✅ 파서

  • 문장을 파싱하면 거의 모든 NLP 애플리케이션에 도움이 될 수 있는 가장 중요한 피처를 유도할 수 있음
  • 파서
    - 문장 형태나 토큰 시퀀스의 자연어를 사용하는 프로그램 또는 더 구체적으로 말하면 도구임. 파서는 입력 스트림을 더 작은 청크로 나눔
  • 파서 트리 또는 추상 구문 트리의 형태로 출력을 생성

✅ 파싱

  • 파싱이란 문장이나 토큰 스트림을 사용하는 과정, 또는 형식 분석
  • 파싱은 문장의 각 단어를 사용하며 성분 구조를 이용해 그 구조를 결정
  • 성분 구조
    - 성분 구조는 어떤 단어가 다른 단어와 결합해 의미 있는 문장 단위를 형성하는지 관찰하는 것
  • 파서 도구
    - 문법 규칙에 따라 파싱 과정을 수행하고 파스 트리 생성
    • 파스 트리 구조 : 문장의 구문 구조를 확인하는 데 사용
      문장의 파스 트리가 문법 규칙을 따르는 것을 물론이고 의미 있는 문장을 생성한다면 해당 문법을 사용해 생성된 문장 뿐만 아니라 문법도 유효함
    • 파싱이 끝나면 문장에서 모호성을 감지하는 데 도움이 되는 파스 트리가 출력으로 생성됨, 모호한 문장은 여러 개의 파스트리로 나옴

✔️ 하향식 파서와 상향식 파서의 차이점

  • 하향식 파서는 가설 중심적이고 상향식 파싱은 데이터 중심적임
  • 하향식 파싱은 역추적 메커니즘이 포함되어 있고, 상향식 파싱은 보통 이를 포함하지 않음
profile
개발자에서, IT Business 담당자로. BrSE 업무를 수행하고 있습니다.

0개의 댓글