# gensim

[ray]로 크롤링 속도 개선
문제상황 python 병렬처리 프레임워크인 ray를 기존 코드에 도입하여 속도 개선을 도모한다. > #### 현재상황 네이버, 유튜브, AI 모델에서 수집/생성되는 연관어 데이터를 pandas DataFrame으로 만들고 SQLAlchemy를 이용해 DB에 저장한다.
[nlp] gensim & sentence-transformers install 필독!!!
gensim과 sentence-transformers는 텍스트를 임베딩하는데 아주 유용한 라이브러리 이다. 이 2개의 라이브러리를 설치하려는데 python이 최신버젼이라면 레거시 에러가 나올 확률이 아주 높다.따라서 python은 3.8 아래로 설치하길 권장한다. 또한
[docker][Dockerfile] anaconda 이미지로 텍스트 마이닝 개발환경 만들기
Dockerfile은 아래와 같다. 용량은 약 5GB 정도COPY 부분은 데이터와 코드를 바로 옮겨서 실행시킬 수 있도록 짜둔것이다. 삭제해도 무방.완료되면 build 명령어로 이미지를 만들자.마지막으로 run 명령어로 컨테이너를 실행시키면 끝.

[nlp] gensim install 필독!!! ModuleNotFoundError: No module named 'gensim.summarization'
gemsim을 최신버젼으로 설치하고 summarization 관련 매소드를 불러오면 다음과 같은 에러가 발생할 수 있다. 이때는 3.4.0으로 다운그레이드 하면 된다.

gensim을 위한 환경
터미널에서 pip install gensimwget -c "https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz"gzip -d GoogleNews-vectors-nega

LDA 토픽 모델링으로 콘텐츠 리뷰를 분석하자
LDA 토픽 모델링은 다른 분석들 보다도 어떤 주제에 대해 여론이 형성되었지 확인하기 편리해서 특히 연구를 시작하는 단계에서 한번 해볼만한 분석이죠. 물론 토픽모델링 자체로도 하나의 연구가 될 수 있고요!