[8-9주] 언어지능 딥러닝

숩비·2023년 10월 31일
0

AIVLE SCHOOL

목록 보기
7/11
post-thumbnail

이번 주차에는 긴 추석 연휴가 있었습니다!
일부 내용을 배운 다음 긴 휴식이 끝나고 다시 기억을 되살리려니까 쉽지 않더라고요🥲

언어지능 딥러닝은 김중헌 강사님께서 진행해주셨습니다.

TF-IDF

딥러닝 학습을 하기 위해서는 단어를 수치화시켜야 하는데 기존에 수치화했던 방법인 One-Hot Encoding 방식을 단어에 적용하기에는 단어가 수도 없이 많고, 범위가 너무 넓어지기 때문에 자연어 단어 표현에는 부적합합니다.

그래서 아래와 같은 단어 표현 방식을 사용하곤 합니다.

분포가설 기반의 두 가지 데이터 표현법

  • 카운트 기반 방법(Count based): 특정 문맥 안에서 단어들이 동시에 등장하는 횟수를 직접 셈
  • 예측 방법(Predictive): 신경망 등을 통해 문맥 안의 단어들을 예측

TF(t,d): 문서 d에서 단어 t의 등장 횟수
IDF(t,D): DF의 역수
DF(t,D): 전체 문서 D에서 단어 t가 등장한 문서 개수

TD-IDF = TD(t,d) * IDF(t,D)

Word Embedding

단어를 밀집 벡터의 형태로 표현하는 방법으로,
워드 임베딩 과정을 통해 나온 벡터를 임베딩 벡터(embedding vector)라고 합니다.

이외에 각각의 활성함수들의 원리에 대해 배우고 GAN, CIFAR-10에 대하여 알아보았습니다.

실습

강사님과 함께 코드를 따라 입력하면서 인터넷 기사를 불러와서 기사 제목으로부터 불용어를 제거하고 형태소를 분석한 후 이를 기반으로 TF-IDF를 구하는 과정을 실습해보았습니다.
형태소 분석에는 Hannanum, kkma, komoran 등의 모듈을 활용해보았습니다!

profile
💻

0개의 댓글