# Text Mining

21개의 포스트
post-thumbnail

토픽 모델링(Topic Modeling)이란?

토픽 모델링(Topic Modeling)이란 텍스트 마이닝 기법 중에서 가장 많이 사용되는 방법이라고 할 수 있습니다. 저 역시 토픽 모델링을 활용하여 많은 논문을 게재하였으며, 텍스트 마이닝을 할 때 유용하게 사용하고 있습니다. 토픽 모델링은 주로 대량의 문서를 분석

2023년 8월 13일
·
1개의 댓글
·
post-thumbnail

과거 대통령 연설문 비교(노무현 대통령 vs 이명박 대통령)

대학원 재직 중 수업 중간 과제 중 WebCrawling과 함께 Text Mining을 수행하는 과제결과를 게재하고자 한다. 해당 내용은 정치적 견해는 없으며, 단순 분석을 목적으로 하였음을 알려드립니다. > 노무현 대통령 vs 이명박 대통령의 연설 비교. Craw

2023년 7월 27일
·
0개의 댓글
·
post-thumbnail

파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize)

TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.텍

2022년 10월 26일
·
0개의 댓글
·

[텍스트 마이닝] 13. Word Senses

=> bad 는 좋은 의미로 쓰일 수도 있고 나쁜 의미로 쓰일 수도 있다. 여러 의미를 가지는 단어 중에 어떤 뜻을 선택할 것인가? -> Word Sense 로 파악 Word senses => serve 의 여러 가지 의미 중에 무슨 의미일까? -> word se

2022년 6월 7일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 14. Coreference

Discourse Discourse covers linguistic expression beyond the boundary of the sentence -> 문장의 밖에서도 의미가 전달 됨 1) Dialogues : the structure of turns in con

2022년 5월 24일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 12. Semantic Roles

Foundation for semantic analysis syntax encodes the structure of language but doesn't directly address meaningsyntax alone doesn't "grab" in an action

2022년 5월 24일
·
0개의 댓글
·
post-thumbnail

2021.05.20 (금) 네이버증시

2021.05.20 (목) 네이버증시

2022년 5월 20일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 11. Neural Sequence Labeling

sequence labeling 할 때, 이제는 HMM 안쓴다! RNN으로 다 할 수 있다! RNNs for POS To make a prediction for y, RNNs condition on all input seen through time t But know

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 10. Parts Of Speech

parts of speech are categories of word defined distributionally by the morphological and syntactic contexts a word appears in. -> POS는 words의 categor

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 9. Embedding(3)

Learn parameters to combine the RNN output across all layers for each word in a sentence for a specific task(NER, semantic role labeling, question ans

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 8. Embedding(2)

pre-traiend word embeddings great for words that appear frequently in data Unseen words are treated as UNKs and assigned zero or random vectors; every

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 7. Vector Semantic

"You shall know a word by the company it keeps" \- 문맥(context)에 의해서 단어를 파악한다.앞서 봤던 모델들에 넣는 벡터를 어떻게 만드는지 생각해보자Vector representation that encodes infor

2022년 5월 18일
·
0개의 댓글
·

[텍스트 마이닝] 6. Language Model(2)

LM : We can use multiclass logistic regression for language modeling by treating the vocabulary as the output space 참고Richer representationsLog-linear

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 5. Language Model(1)

Language models provide us with a way to quantify the likelihood fo a sequence -- i.e., plausible sentences. -> 말이 되면 확률값이 높다. P("Call me Ishmael") =

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 4. Classification - Neural Network

Prediction 과 Backpropagation 의 반복이다. 처음에 Weight 값을 임의의 값으로 설정하고 y-y햇이 최소화되게끔 업데이트한다. 참고Discrete, high-dimensional representation of inputs (one-hot ve

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 3. Classification - Logistic Regression

확률이 0이 되는 것을 막기 위해서 BIAS를 주고 이런 방식으로 h햇을 학습시킨다. 참고Features \- As a discriminative classifier, logistic regression doesn't assum features are independ

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 2. Classification - Sentiment Analysis

h(x) = y Supervised learning 참고참고감성 사전 : <x,y> pair 를 넣어서 h를 학습시켜 놓은 것우리는 이 감성 사전을 이용해서 h를 학습시키고, classification 하면 됨Sentiment as tone -> 시간에 따라 변하

2022년 5월 18일
·
0개의 댓글
·
post-thumbnail

[텍스트 마이닝] 1. INTRO

Artificaial intelligenceMachine learning; statistical models, neural networksLinguisticsSocial sciences/humanities (models of languege at use in cultu

2022년 5월 18일
·
0개의 댓글
·

Text Mining 방법론

Text는 분석하기도, 주요 특징을 시각화 하기도 어려운 데이터다. 추상적인 단어들로 가득하고, 같은 단어도 문맥에 따라 개념이 변동되고, 유사 동의어 유의어 표현도 다양하다. 통계적 관점에서 단어 하나하나가 각 차원을 이루어 쉽게 처리하기 힘든 고차원성을 가진다.

2020년 12월 13일
·
0개의 댓글
·