# Text Mining

토픽 모델링(Topic Modeling)이란?
토픽 모델링(Topic Modeling)이란 텍스트 마이닝 기법 중에서 가장 많이 사용되는 방법이라고 할 수 있습니다. 저 역시 토픽 모델링을 활용하여 많은 논문을 게재하였으며, 텍스트 마이닝을 할 때 유용하게 사용하고 있습니다. 토픽 모델링은 주로 대량의 문서를 분석

과거 대통령 연설문 비교(노무현 대통령 vs 이명박 대통령)
대학원 재직 중 수업 중간 과제 중 WebCrawling과 함께 Text Mining을 수행하는 과제결과를 게재하고자 한다. 해당 내용은 정치적 견해는 없으며, 단순 분석을 목적으로 하였음을 알려드립니다. > 노무현 대통령 vs 이명박 대통령의 연설 비교. Craw

파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize)
TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.텍
[텍스트 마이닝] 13. Word Senses
=> bad 는 좋은 의미로 쓰일 수도 있고 나쁜 의미로 쓰일 수도 있다. 여러 의미를 가지는 단어 중에 어떤 뜻을 선택할 것인가? -> Word Sense 로 파악 Word senses => serve 의 여러 가지 의미 중에 무슨 의미일까? -> word se

[텍스트 마이닝] 14. Coreference
Discourse Discourse covers linguistic expression beyond the boundary of the sentence -> 문장의 밖에서도 의미가 전달 됨 1) Dialogues : the structure of turns in con

[텍스트 마이닝] 12. Semantic Roles
Foundation for semantic analysis syntax encodes the structure of language but doesn't directly address meaningsyntax alone doesn't "grab" in an action

[텍스트 마이닝] 11. Neural Sequence Labeling
sequence labeling 할 때, 이제는 HMM 안쓴다! RNN으로 다 할 수 있다! RNNs for POS To make a prediction for y, RNNs condition on all input seen through time t But know

[텍스트 마이닝] 10. Parts Of Speech
parts of speech are categories of word defined distributionally by the morphological and syntactic contexts a word appears in. -> POS는 words의 categor

[텍스트 마이닝] 9. Embedding(3)
Learn parameters to combine the RNN output across all layers for each word in a sentence for a specific task(NER, semantic role labeling, question ans

[텍스트 마이닝] 8. Embedding(2)
pre-traiend word embeddings great for words that appear frequently in data Unseen words are treated as UNKs and assigned zero or random vectors; every

[텍스트 마이닝] 7. Vector Semantic
"You shall know a word by the company it keeps" \- 문맥(context)에 의해서 단어를 파악한다.앞서 봤던 모델들에 넣는 벡터를 어떻게 만드는지 생각해보자Vector representation that encodes infor
[텍스트 마이닝] 6. Language Model(2)
LM : We can use multiclass logistic regression for language modeling by treating the vocabulary as the output space 참고Richer representationsLog-linear

[텍스트 마이닝] 5. Language Model(1)
Language models provide us with a way to quantify the likelihood fo a sequence -- i.e., plausible sentences. -> 말이 되면 확률값이 높다. P("Call me Ishmael") =

[텍스트 마이닝] 4. Classification - Neural Network
Prediction 과 Backpropagation 의 반복이다. 처음에 Weight 값을 임의의 값으로 설정하고 y-y햇이 최소화되게끔 업데이트한다. 참고Discrete, high-dimensional representation of inputs (one-hot ve

[텍스트 마이닝] 3. Classification - Logistic Regression
확률이 0이 되는 것을 막기 위해서 BIAS를 주고 이런 방식으로 h햇을 학습시킨다. 참고Features \- As a discriminative classifier, logistic regression doesn't assum features are independ

[텍스트 마이닝] 2. Classification - Sentiment Analysis
h(x) = y Supervised learning 참고참고감성 사전 : <x,y> pair 를 넣어서 h를 학습시켜 놓은 것우리는 이 감성 사전을 이용해서 h를 학습시키고, classification 하면 됨Sentiment as tone -> 시간에 따라 변하

[텍스트 마이닝] 1. INTRO
Artificaial intelligenceMachine learning; statistical models, neural networksLinguisticsSocial sciences/humanities (models of languege at use in cultu
Text Mining 방법론
Text는 분석하기도, 주요 특징을 시각화 하기도 어려운 데이터다. 추상적인 단어들로 가득하고, 같은 단어도 문맥에 따라 개념이 변동되고, 유사 동의어 유의어 표현도 다양하다. 통계적 관점에서 단어 하나하나가 각 차원을 이루어 쉽게 처리하기 힘든 고차원성을 가진다.