12월 28일부터 자대 대학교 연구실 프로젝트를 시작하여 2월 16일 프로젝트를 마치고 프로젝트 동안 공부한 것을 정리하기 위하여 블로그를 시작하게 되었다. 나를 포함하여 총 4명의 팀원들과 NLP를 이용한 프로젝트를 시작했다. 우리가 한 프로젝트의 주제는 사용자가 보
오류가 있는 내용이나 정확하지 않은 내용에 대해서는 댓글로 피드백 달아 주세요! 형태소 분석기를 설명하기에 앞서 자연어처리를 하기위해 필요한 전처리에 대해 간단하게 설명하고자 한다. 전처리의 필요성 자연어처리를 하기 위해서는 전처리 과정이 필수다. 전처리가 필요한
지난 포스터에서는 여러가지 형태소 분석기들의 성능과 전처리의 필요성에 대해서 포스터를 작성 했었다. 이번 포스터는 지난 포스터에서 설명한 형태소 분석기들 중 취향저격 프로젝트에서 사용한 형태소 분석기인 Okt 형태소 분석기에 대한 사용법을 작성하고자 한다. (형태소
이번 포스터에서는 프로젝트를 진행하면서, 형태소 분석기를 이용해서 수집한 데이터를 전처리하는 코드를 리뷰할 것이다. 문장 단위로 나누기 영화별로 모아놓은 줄거리, 명대사, 리뷰를 하나의 sentence로 합쳐놨었다. 이를 다시 한 문장 단위로 잘라서 (제목, 코드,
이번 포스터에서는 프로젝트에서 사용했던 순환 신경망인 RNN(Recurrent Neural Network)에 대해 간단하게 설명하고자 한다.프로젝트 초기에는 데이터들의 줄거리에 장르로 태그를 달아서 학습을 시킨 후 사용자가 입력한 문장이 어느 장르에 속하는지를 찾아야
학습 데이터 만들기 데이터 개수 확인 데이터의 모양을 확인하기 위해 상위 5개 출력 불필요한 열 제거 및 장르 라벨링 열이 잘 삭제 돼었고, 사진상에선 보이진 않지만 각 장르별로 숫자 라벨링이 됐다. 드라마 -> 0, 판타지 -> 1 이런식으로 라벨링을 해주었고
이번 포스터에서는 프로젝트에서 사용했던 장단기 메모리인 LSTM(Long Short-Term Memory)대해 간단하게 설명하고자 한다. 프로젝트 내 LSTM 이전에 사용했던 RNN이 생각보다 성능이 좋지 않았다. 프로젝트를 끝내고 이번 블로그를 작성하면서 코드를 다
RNN으로 성능이 많이 안나와서 생각해낸 방법인 LSTM을 이용해서 모델을 학습 시켜 보았다.데이터 셋은 기존의 RNN을 이용할 때 만든 데이터셋을 사용하였다.취향저격 - RNN(2)모델 실행 결과는 정확도 가 13.7퍼까지 갔다가 다시 12.7로 떨어졌다. 기존 RN
오랜만에 글을 작성한다. 이번에는 취향저격 프로젝트에서 사용했던 Doc2Vec에 관하여 간단하게 설명하고자 한다. Doc2Vec을 이용하기 시작할 때 부터 프로젝트의 방향성을 살짝 바꿔서 기존의 사용자 입력을 장르로 구분하는 것에서 사용자의 입력을 영화의 줄거리와
취향저격 프로젝트의 마무리는 Word2Vec이다. 결론을 먼저 말하면, Word2Vec을 이용한 통계 기반으로 영화 추천을 했고, 결과는 만족스러웠다.Word2Vec은 문장을 단어 단위로 자른 후 학습 시켜서 단어와 단어간의 거리를 Vector로 표시한 것으로, 어느정