NLP
자연어 처리
- 자연어 처리
- NLU(Natural Language Understanding) : 단어, 문장, 문단을 이해
- NLG(Natural Language Generation) : 상황에 맞는 자연어 생성
- Task : Language Modeling(문단 일부를 보고 다음 단어 예측), Machine Translation(기계번역), Question & Answering, Document classification
- 자연어 처리 학회 : ACL, EMNLP, NAACL
- Task
- low level prasing
- tokenization : 문장을 단어 단위로 쪼갬
- stemming : 다양한 어미가 붙은 단어를 하나의 뜻으로 해석 - 어근을 추출
- word and phrase level
- NER(Named entity recognition) : 고유 명사를 인식함 ex. NewYork Times를 하나의 고유명사로 인식
- POS tagging(part-of-speech) : 문장 내에서 단어의 품사(성분)을 알아냄
- etc) noun-phrase chunking, dependency prasing, coreference resolution
- sentence level
- sentiment analysis : 감정 분석 ex. This movie was not that bad. → 이 문장은 bad 가 들어가 있음에도 부정이 아닌 긍정으로 해석
- maching trasnlation : 기계 번역 ex. 영어 → 한글 (단어, 어순 고려)
- multi-sentence and paragraph level
- entailment prediction : 두 문장 간의 논리적 내포나 모순 관계 예측 ex. 어제 존이 결혼을 했다 → 어제 최소한 한명이 결혼을 했다.(참)
- question answering : 독해 기반 질의응답 ex. 구글에서는 ‘where did napoleon die’ 라는 검색어에 대한 정답을 제공
- dialog systems : 챗봇
- summarization : 문서 요약
Text mining
- extract useful information and instights from text and document data
- ex. analyzing the trends of AI-related keywords form massice news data
- document clustering (topic modeling)
- ex. clustering news data and grouping into difference subjects
- highly related to computational social science
- ex. analyzing the evolution of people’s political tendency based on soical media data
- 학회 : KDD, The WebConf(WWW), WSDM, CIKM, ICWSM
- highly related to computational social science
