챗봇 프로젝트

Jane의 study note.·2022년 12월 12일
1

NLP 자연어처리

목록 보기
24/24

1. 프로젝트명

목적 지향 대화와 오픈 도메인 대화가 가능한 챗봇 만들기

2. 프로젝트 소개

(수행목적)

● Agent와 사람 간 자연스러운 대화를 진행하기 위해 질의/응답의 Question
Answering, Chatting, Goal-Oriented 대화 등 다양한 형식의 대화를 코드로
구현함

  • 자연어처리(NLP)를 이루는 자연어 이해(NLU)와 자연어 생성(NLG)을 이해하고 코드로 구현

  • 대화시스템(Dialogue system)을 이루는 목적 지향 대화 시스템(Task-oriented Dialogue system)과 오픈 도메인 대화 시스템(Open domain Dialogue system)을 이해하고 이를 코드로 구현

  • 두가지 대화 시스템을 결합한 하이브리드 대화 시스템(Hybrid Dialogue system)을 구성함

3. 프로젝트 수행 단계

수행 단계별

  • 사용 모델
  • 구성 요소
  • 사용 기법

1. 목적 지향 대화 시스템 만들기

1. 자연어이해(NLU) 실습

  1. 임베딩 (Embedding) Word2Vec, Skip gram
  2. 의도분류 (Intent Classification) TextCNN
  3. 정보추출 (Information Extraction) Bi-LSTM CRF
  4. OOD(Out of Domain)분류 DAN(Deep Average Network)
  5. NLU 시스템 구성 OOD Detector, Intent Classification,
    Entity recognition, Post Processing

2. 자연어생성(NLG) 및 대화관리(DM) 실습

  1. 자연어생성(NLG)
  • 싱글턴 기반의 대화시스템 구성
  1. 대화관리(DM) 시스템 구성
  • 대화 흐름 설계 너비우선 탐색기법을 사용한 DST 설계
  • DM 시스템 구성 Make DM Slot, Dialog State Tracking
    Dialog Policy, NLG

2. 오픈 도메인 대화 시스템 만들기

 E2E 챗봇 실습

  1. 생성 기반 방식 모델 구성 SentencePiece, Transformer
  2. E2E 챗봇 시스템 구성

3. 하이브리드 대화 시스템 만들기

 하이브리드 대화 시스템 실습

 하이브리드 대화 시스템 구성 목적지향 대화시스템, 생성기반 대화시
스템, Ranking

4. 프로젝트 수행도구

사용언어 및 개발환경
● Programming Language

  • Python

● Integrated Development Environment(IDE)

  • Jupyter Notebook
  • Google Colab
  • Visual Studio Code

● Framework & Package

  • Preprocessing
     Tokenizing, Embedding : SentencePiece, gensim(Word2Vec),
  • Deep Learning Modeling : Pytorch

5. 구현된 논문

 Word2Vec 중 Skip gram : Mikolov, Tomas; et al. (2013). "Efficient Estimation
of Word Representations in Vector Space".

 TextCNN : Yoon Kim."Convolutional Neural Networks for Sentence-Classificati-
on".

 Bi-LSTM CRF : Zhiheng Huang,Wei Xu,Kai Yu."Bidirectional LSTM-CRF Models
for Sequence Tagging".

 DAN(Deep Average Network) : Iyyer."Deep Unordered Composition Rivals Syn-
tactic Methods for Text Classification".

 SentencePiece : SentencePiece: A simple and language independent subword
tokenizer and detokenizer for Neural Text Processing, Taku Kudo, John Richard-
son, Google

 Transformer : “Attention Is All You Need” Ashish Vaswani, Noam Shazeer,
Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

0개의 댓글