[NLP] Language Task & Data

Sejin Jeong·2022년 12월 15일
1

NLP

목록 보기
1/5
post-thumbnail

** 위의 이미지는 인공지능 신문이라는 신문사의 기사에 있는 이미지를 가지고 와서 사용했습니다.

Language (언어)

Text (글) : Visible

Speech (음성) : Unvisible

Methods (방법론)

Natural Language Processing (NLP; 자연어처리) :

  • Understansing(이해), Generating(생성), Analysis(분석)

Natural Language Understanding (NLU; 자연어이해) :

  • Syntatic / Grammar (문법), Semantic (의미), Intent / Intention (의도)
  • Sentiment Analysis (감정 분석), Machine Comprehension (기계 독해), Common Sense reasoning (상식 추론), Semantic Textual Similarity (STS; 의미론적 유사도 측정), Task-Oriented Dialogue (목적 기반 대화), Relation Extraction (관계 추출), Semantic Syntax Analysis (의미론적 구문 분석), Semantic Analysis (의미 분석)
  • Data: GLUE benchmark

Natural Language Generating (NLG; 자연어생성) :

  • Autocomplete (자동 완성), Story Generation (스토리 생성), Generative Language Model (생성형 언어 모델), Data based Sentence Generation (데이터 기반 문장 생성), Caption Generation (캡션 생성)

NLU & NLG Intersection (NLU, NLG 교집합) :

  • Generative Text Summarization (생성형 문서 요약), Generative Question Answer (생성형 질의 응답), End-to-End Chatbot (E2E 챗봇)

NLU & NLG Subtraction (NLU, NLG 모두 차집합) :

  • , Lemmatization (표제어 추출), Machine Translation (기계 번역)

Natural Language Analysis (NLA; 자연어분석)

  • Morphological Analysis (형태소 분석), Syntax Analysis (구문 분석), Semantic analysis(의미 분석), Pragmatic Analysis (실용 분석)

Text Task & Data

1. Sentiment / Emotion Analysis (감정 / 감성 분석)

  • Positive / Negative
  • 1~5 Score
  • Data: SST, IMDb, NSMC

2. Text Summarization (문서 요약)

  • Extractive Summarization : 주어진 Text에서 중요한 부분을 찾아냄. 원문의 문장을 포함한 요약.
  • Abstractive Summarization: 주어진 Text의 의미를 완전히 이해하고 이를 요약하여 새로운 문장을 만들어냄. 원문의 의미를 해석하여 새로운 문장을 생성하는 요약.
  • Multi Document Summarization
  • Data: CNN/DailyMail
  • Paper: T5

3. Translation (번역)

  • Source(번역 대상) / Target(번역 결과)
  • Rule-Based Machine Translation (규칙 기반 기계 번역) : Source의 형태소 분석, 구문 분석, 의미 분석, 화용 분석을 거쳐 이에 역순으로 Target Text를 생성. 문법 규칙이 유사한 경우 형태소 분석, 구문 분석, 의미 분석, 화용 분석 중 생략되는 단계가 존재할 수 있음.
  • Statistical Machine Translation (통계 기반 기계 번역) : 통계적이라 함은 사전에 데이터가 존재해야 함을 의미. 데이터를 바탕으로 Word Alignment를 진행해 얻을 수 있는 대역어 테이블에서 단어 혹은 구 단위로 묶어 번역 모델을 생성하는 과정을 거쳐 Source Text와 가장 비슷하다고 예측한 Source Text를 생성.
  • Neural Machine Translation (신경망 기계 번역)
  • Data: WMT English to German, Back Translation(for Data Augmentation)

4. Question Answering (QA; 질의 응답)

  • Information Retrieval(정보 검색)
  • Reading Comprehension(문맥 이해)
  • Data: SQuAD, CoQA, korQuAD
  • Paper: GPT-2

5. Part-Of-Speech Tagging (POS Tagging; 각 단어의 품사를 예측)

  • English: NLTK
  • Korean: Konlpy

6. Dialogue System (대화 시스템)

  • Task-oriented Dialogue System (문제 해결용 시스템): Google Assistant, Siri, Alexa, Bixby (최대한 적은 대화)
  • Open domain Dialogue System (자유 주제 대화 시스템): 심심이, 이루다 (최대한 긴 대화)
  • Generaticve-based model (답변을 직접 생성하는 모델)
  • Retrieval-based model (DB에서 답변을 고르는 모델)
  • Chatbot

7. Text/Document Classification (문서 분류)

  • Binary Classification (이진 분류) : Spam/Ham(스팸 메일/일반 메일), Positive/Negative(긍정/부정), Plant/Animal(식물/동물)
  • MultiClass Classification (다중 분류) : News Article(뉴스기사(정치, 경제, 스포츠, IT 등), Product Review(상품 리뷰(노트북, 스마트폰, 이어폰 등)), Sentiment Analysis(감성 분석(기쁨, 슬픔, 우울함 등))
  • Intent Classification(의도 분류): Question Intent Classification (질문 의도 분류), Utterance Intent Classification (발화 의도 분류)

8. Text Generation (문서 생성)

  • Autocomplete (자동 완성), Story Generation(스토리 생성), Caption Generation (캡션 생성)
  • Data: COCO Captions
  • Paper: GPT-2

9. Morphological Analysis (형태소 분석)

  • Konlpy(HMM based) : Hannanum(한나눔), Kkma(꼬꼬마), Komoran(코모란), Mecab(메캅), Twitter(트위터)
  • Khaiii(CNN based)

10. Word Embedding (워드 임베딩)

  • Data: IMDb

11. Emotion Recognition (감정 인식)

  • Empathetic Conversation

12. Named Entity Recognition/Normalization (NER; 개체명 인식)

13. Stemming (어간 추출)

  • English: NLTK

14. Lemmatizing (표제어 추출)

  • English: NLTK

15. Sequence Labelling (Generation)

16. Word Sense Disambiguation (WSD; 각 단어의 중의적 표현을 구분)

17. Image Captioning (이미지 캡셔닝)

18. Similarity Prediction (유사도 예측)

  • Data: STS, MRPC, QQP, PAWS-X

19. Natural Language Inference (NLI; 자연어 추론)

  • Data: SNLI, MNLI, XNLI, aNLI

20. Linguistic Acceptability (언어적 용인 가능성)

  • Data: CoLA

21. Question Generation (질문 생성)

22. Fake News Detection (가짜 뉴스 탐지)

23. Meeting Summarization (회의 요약)

24. Information retrieval (정보 검색)

Speech Task & Data

1. Automatic Speech Recognition (ASR; 자동 음성 인식)

  • 음성 입력 -> 음성 인식(speech-to-text) -> 자연어 처리 -> 인식 결과(text-to-speech) -> 출력
  • Smart Speaker

2. Speech-to-text (STT; 음성 인식)

3. Text-to-Speech Speech synthesis (TTS; 음성 합성)

4. Hate Speech Detection

5. Meeting Summarization (회의 요약)

6. Speech Summarization (음성 요약)

Leaderboard

SQuAD Go to See

KorQuAD Go to See

CoQA Go to See

GLUE Benchmark Go to See

PaperWithCodes Go to See

NLPPogress Go to See

Etc.

wikipedia 1 Go to See
wikipedia 2 Go to See
namuwiki 1 Go to See
namuwiki 2 Go to See
namuwiki 3 Go to See
namuwiki 4 Go to See

Additional Data

국립국어원, 세종 말뭉치(21세기 세종계획), 뉴스기사, 위키, 블로그, 웹 문서

Language

Korean, english, chinese, japanese, etc.
eng, rus, deu, zho, jpn, fra, spa, unknown, ita, por, nld, pol, ces, tur, ind, vie, swe, fas, kor

profile
Soli Deo Gloria. / Sapere Aude.

0개의 댓글