https://www.notion.so/Django-312ffd555db841dbbaf40931df57a875
먼저 우리팀의 노션 자료이다. 오늘은 아침에 추천시스템의 대한 특강이 있었다. 간략하게 내용을 정리하자면
1.네이버 뉴스 페이지에서, 각각의 뉴스가 가진 URL을 리스트 형태로 만들어서 저장해놓는다.
2.각각의 뉴스가 가진 URL 에 접근하면 제목과 본문 내용이 표시가 될텐데, 그 제목과 본문 내용을 newspaper3k 패키지를 이용해서 3.크롤링을 진행한다.
4.크롤링을 할 때마다 크롤링 되어온 내용을 데이터프레임에 계속 이어붙인다.
5.크롤링이 끝났다면, 정보가 저장되어있는 데이터프레임을 csv 파일로 저장한다.
2.문서를 벡터화한다. (이를 벡터 임베딩이라고 표현합니다. 현재 실습에서는 gensim 이라는 라이브러리의 doc2vec 이라는 벡터화 장치를 사용할 예정입니다.)
3.벡터 임베딩 = 문서/단어/이미지 등의 데이터를 벡터 공간에 놓고, 그들의 관계를 표현할 수 있도록 하는 것 (사실 사람도, 어떤 단어의 뜻을 이해할 때는 다른 단어들과의 관계 및 문장 속 맥락을 통해서 파악합니다. 이러한 원리를 기계에게도 적용시키는 것입니다!) https://projector.tensorflow.org/
4.벡터값을 코사인 유사도 계산을 통해 비교한다.
이미지 유사도 부분은 중간에 타이핑을 놓쳐서 나중에 강의 영상을 다시보면서 공부를 해볼 생각이다.
우리팀은 제주도 음식 추천시스템을 이용할 생각이다.
기존에 있는 맛집 사이트를 크롤링 해서 그 데이터를 기반으로 모델을 학습시키고 아웃풋 으로 추천 시스템을 만들 생각이다.
오늘은 하루종일 기획하는데 힘을 다 쓴 것 같다. 그래도 오늘 어느정도 기획이 마무리되서 다행이라고 생각한다.
설계의 과정이 중요하다고 느낀것이, 설계하는 과정에서도 공부가 많이 되는 것 같다. DB설계와 ERD 부분에서 머리속으로 시뮬레이션을
많이 돌리고 이건 이렇게, 저건저렇게 하면서 설계를 하고 작업이 들어가면 작업이 훨씬 수월해질 것 같다.
내일 부터 다시 팀프로젝트 시작이다. 이번 프로젝트는 1등을 하자는 목표로 정말 열심히 달려볼 생각이다.