순환신경망(Recurrent Neural Network, RNN)
시퀀스(Sequence)란?
언어 모델(Language Model)
n-1개의 단어 시퀀스 가 주어졌을 때, n번째 단어 으로 무엇이 올지를 예측하는 확률 모델
n-1까지의 시퀀스 → y_train
n → y_train
토큰화(Tokenize)
문장을 일정한 기준으로 분류하여 자료구조에 담는것
소스 문장(Source Sentence)
입력이 되는 문장
타겟 문장(Target Sentence)
정답역할의 출력문장
tf.keras.preprocessing.text.Tokenizer
→벡터화 패키지
텐서 Tensor 란?
tf.data.Dataset.from_tensor_slices()
tf.data.Dataset
를 활용한 데이터입력 파이프라인 생성버퍼사이즈?
배치사이즈?
데이터셋 생성과정
1.정규표현식을 이용한 corpus 생성
2.tf.keras.preprocessing.text.Tokenizer를 이용해 corpus를 텐서로 변환
3.tf.data.Dataset.from_tensor_slices()를 이용해 corpus 텐서를 tf.data.Dataset객체로 변환
shuffle()
batch()
Subclassing 방식이란?
Embedding → RNN1 → RNN2 →Liner(Dense)
tf.test.is_gpu_available()
→ 학습속도가 느릴때 gpu 사용 여부 체크
generate_text
glob
preprocess_sentence()
지나치게 긴 문장은 다른 데이터들이 과도한 Padding을 갖게 하므로
→ 토큰화 했을 때 토큰의 개수가 15개를 넘어가는 문장을 학습데이터에서 제외하기
train_test_split()
sklearn
모듈