tokenize 사용
word_tokenize를 사용하여 단어별로 문장을 잘라준다.
잘라진 단어중 의미에 상관없는 불필요한 단어들을 제거해준다.
각 단어의 개수를 세어 내림차순으로 정렬한다.
정렬한 단어들을 원-핫 벡터로 바꿔준다.
이를 이용하여 wordCloud를 그려준다.
노래 gimme gimme를 이용하여 만든 워드클라우드
머신러닝
비만도 데이터를 이용하여 키와 몸무게로 비만도를 예측하는 모델을 구축했다.
전체 데이터의 20%를 테스트 데이터로 사용했고, KNN알고리즘을 사용했다. 정확도는 k가 10일때, 93%정도로 최고값이 나왔다.
KNN알고리즘이란 최근접 이웃 알고리즘이다. 이는 정해진 k 값 만큼의 근접한 데이터의 결과를 따르는 것이다. k값이 작을수록 복잡도가 증가하지만, 속도가 빠르다. 반대로 k 값이 커질수록 복잡도는 낮아지지만 연산량이 증가하여 속도가 느려진다.
공간복잡도