한글 이외 문자 전부 제거import redef text_cleaning(text): hangul = re.compile('^ㄱ-|가-힣+') result=hangul.sub('',text) return resultdf'ko' = df'ko'.apply(la
: 예측분석의 가장 대표적인 방법, x와 y 관계 찾아내는 것ex) y=ax+b실제 데이터(점)와 거리가 최소가 되는 방정식(선)을 찾아내는 것\-> 방정식의 계수 a,b를 잘 정해야 함원-핫 인코딩 get_dummies(): 범주형(ex) 과일) 은 연속형(1,0.1
- 로지스틱 회귀 모델 : 기존 회귀 분석의 예측값 y를 0-1사이의 값으로 제한하여 0.5보다 크면 1, 0.5보다 작으면 0으로 분류 > 1. 결측값 처리 방법 1) 결측값 데이터 삭제 2) 평균값 or 중앙값 or 최빈값 .. 등 임의의 값으로 채우기 > 2
: 문서(텍스트 데이터)를 긍정 / 부정으로 나누어 분류텍스트 전처리1) 한글 텍스트로 전처리2) 형태소 단위 추출 함수 정의3) 텍스트 데이터를 분류 모델에 학습이 가능한 데이터셋으로 만들기: raw데이터셋 -> 말뭉치(corpas) -> 학습 데이터셋(벡터)중복되는
데이터 나누기 -> fit하여 모델 학습 -> featureimportances 출력하면 피처 중요도 출력 가능forest=RandomForestRegression(n_estimators=1000, criterion='mse')forest.featureimportanc
konlpy를 이용해 키워드 추출 ( Okt tagger) > 키워드 다듬기 1 - 한 글자 키워드 제거 > 키워드 다듬기2- 불용어 사전 (stopwrods) 불용어 : 실직ㄹ적인 의미 없는 키워드 + 의미적인 독립을 할 수 없는 품사 ex) 입니다, 그, 저,
훈련 세트와 테스트 세트 나누기: 판다스 데이터ㅡ레임을 넘파이 배열로 바꾸고 나눔data=\[\[]].to_numpy()target=wine'class'.to_numpy()사이킷런: 사이킷런 패키지 사용하려면 각 특성의 리스트를 세로 방향으로 늘어뜨린 2차원 리스트 만