자연어 처리

wandajeong·2023년 1월 13일
0

NLP/Text Data Analysis

목록 보기
5/12
post-thumbnail
  • 자연어 처리의 분야 2가지

    • 자연어 이해(듣기, 읽기) : 문서 분류, 토큰 분류, 문서 유사도, 질의 응답
    • 자연어 쓰기(말하기, 쓰기) : 다음 단어 예측, 빈 칸 채우기, 요약, 번역
  • 자연어 생성의 방법

    • 규칙 기반 (e.g. 일기예보)
      • 장점: 자연어 생성의 각 과정을 세세하게 제어할 수 있음
      • 단점: 개발에 많은 노력이 필요, 자연스러운 문장을 생성하기가 어려움
    • 기계 학습
      • 장점: end-to-end 구현 가능, 자연스러운 표현 가능
      • 단점 : 많은 데이터가 필요, 제어가 어려움
    • 혼합 : 규칙과 기계학습의 혼합
  • 자연어 생성의 분야

    • data-to-text : 기사/보고서 생성
    • image-to-text : 캡션 생성
    • text-to-text : 기계 번역, 챗봇(대화 생성), 요약
    • 이야기 생성
  • 챗봇

    • Turing Test : 심판이 컴퓨터와 인간을 구분할 수 없으면 컴퓨터가 인간 수준의 지능을 가진 것으로 판정
    • ELIZA : 1966년 발표한 최초의 챗봇
    • 유사도 기반 챗봇 (e.g. 예전 이루다) : 사용자의 입력과 가장 비슷한 발언을 데이터에서 검색
    • 프레임 기반 대화 시스템
      • 구체적인 목적이 있는 대화 시스템에서는 자연어 생성보다 이해가 중요
      • 사용자의 질문을 프레임에 맞춰서 분석하여 적절히 대응 (e.g. 비행기표 예매: 출발지, 도착지, 날짜, 시간, 인원)
profile
ML/DL swimmer

0개의 댓글