자연어 처리

wandajeong·2023년 1월 13일

NLP/Text Data Analysis

목록 보기

5/12

자연어 처리의 분야 2가지
- 자연어 이해(듣기, 읽기) : 문서 분류, 토큰 분류, 문서 유사도, 질의 응답
- 자연어 쓰기(말하기, 쓰기) : 다음 단어 예측, 빈 칸 채우기, 요약, 번역
자연어 생성의 방법
- 규칙 기반 (e.g. 일기예보)
  - 장점: 자연어 생성의 각 과정을 세세하게 제어할 수 있음
  - 단점: 개발에 많은 노력이 필요, 자연스러운 문장을 생성하기가 어려움
- 기계 학습
  - 장점: end-to-end 구현 가능, 자연스러운 표현 가능
  - 단점 : 많은 데이터가 필요, 제어가 어려움
- 혼합 : 규칙과 기계학습의 혼합
자연어 생성의 분야
- data-to-text : 기사/보고서 생성
- image-to-text : 캡션 생성
- text-to-text : 기계 번역, 챗봇(대화 생성), 요약
- 이야기 생성
챗봇
- Turing Test : 심판이 컴퓨터와 인간을 구분할 수 없으면 컴퓨터가 인간 수준의 지능을 가진 것으로 판정
- ELIZA : 1966년 발표한 최초의 챗봇
- 유사도 기반 챗봇 (e.g. 예전 이루다) : 사용자의 입력과 가장 비슷한 발언을 데이터에서 검색
- 프레임 기반 대화 시스템
  - 구체적인 목적이 있는 대화 시스템에서는 자연어 생성보다 이해가 중요
  - 사용자의 질문을 프레임에 맞춰서 분석하여 적절히 대응 (e.g. 비행기표 예매: 출발지, 도착지, 날짜, 시간, 인원)

ML/DL swimmer