[AI Project] 한국어 데이터로 챗봇 만들기

yenaryu·2022년 2월 22일
1

DATA

목록 보기
10/14

프로젝트 진행 과정

1. 데이터 수집하기

한국어 챗봇 데이터

 
2. 데이터 전처리하기

  • 한글 전처리 함수
  • 질문과 답변의 쌍인 데이터셋을 구성하기 위한 데이터 로드 함수

 
3. SubwordTextEncoder 사용하기

💡 병렬 데이터 전처리하기

  • 단어장(Vocabulary) 만들기
  • 각 단어를 고유한 정수로 인코딩(Integer encoding) & 패딩(Padding)
  • 교사 강요(Teacher Forcing) 사용하기

 
4. 모델 구성하기

💡 모델 정의

  • 포지셔널 행렬
  • 스케일드 닷 프로덕트 어텐션
  • 멀티 헤드 어텐션
  • 패딩 마스킹
  • 룩 어헤드 마스킹
  • 인코더
  • 디코더
  • 트랜스포머

💡모델 구성

  • 모델 생성
  • 손실 함수(Loss function)
  • 커스텀 된 학습률(Learning rate)
  • 모델 컴파일
  • 훈련하기

 
5. 모델 평가하기

  • 예측(inference)으로 챗봇 테스트

 

구현한 프로젝트

PROJECT : transformer chatbot

 

회고

BATCH_SIZE = 128 EPOCHS = 50으로 학습 -> 유의미한 개선 X

기본적인 일상 대화가 가능하며 질문에 해당하는 답변을 도출하는 AI 챗봇 생성

 


📆 2022-02-22

0개의 댓글