NLP 다시 정리할 것

단단한어린이·2023년 8월 13일
0

Machine Learning

목록 보기
3/3

numeric or word representation
feature extraction
(feature) encoding
(word) embedding
word representation
numerical representation
vectorization

  • categorical data를 one-hot encoding으로 분류 정리
    1 dimensional array : vector로 변경
  • bag-of-word : 빈도 기반 단어 표현
    ex) BoW: [1,1,1,2]
  • TF-IDF : 빈도 기반 단어 표현(문서 기반)
    Term Frequency X Inverse Document Frequency
    (Term == Word) 특정 단어가 등장한 문서의 개수
  • Word2Vec : (dense) embedding
    • neural network model
    • 큰 dataset으로 (a 1.6 billion words data set) word embedding을 학습
    • "의미" == similar words?
    • "king" - "man" = "queen"
  • Deep Neural Network

Model : CNN RNN LSTM GRU

Methodology :
sequence-to-sequence
encoder-decoder structure

  • Transformer
  • Bert
    - Transfer learning
    • Pre-training(Self-supervised Learning) and Fine-tuning(Supervised Learning)
  
profile
Footprints in Coding

1개의 댓글

comment-user-thumbnail
2023년 8월 13일

글 잘 봤습니다.

답글 달기