# scikit learn

제로베이스 데이터취업스쿨 DAY51 머신러닝1~4
타이타닉 데이터 분석 1. 데이터 가져오기 2. 분석 시각화 
[TIL] 파이썬&기계학습 입문 2 (완)
본 글은 Kikagaku의 무료 강좌 파이썬&기계학습 입문의 강의 노트 중 두 번째 노트입니다.아래의 리스트는 해당 강좌의 커리큘럼이며, 본 노트는 "8. 도입"부터 "11. 단회귀분석 구현"까지의 내용을 간단하게 정리한 글입니다.

[이어드림 스쿨 2기] 첫 고비를 맞이하다
# 그룹 스터디 시작! (4.19) 테스트를 통해 배정된 그룹 스터디 조가 처음 편성되었다. ZEP에서 첫 모임을 가지고 자기소개를 하고 그룹 스터디 방향과 의견을 이야기하는 자리였다. 어색한 기류가 있었지만 다들 똑같겠지 하는 마음으로 이야기했던 것 같다. 그러나

[Machine Learning] 사이킷런(sklearn) - 기초
머신러닝 중 사이킷런(sklearn)을 배우고 기본 예제를 실행해보았습니다.

[인공지능] 사이킷런(scikit-learn) 시작(1)
scikit-learn 특징 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공 다양한 머신러닝 관련 알고리즘과 개발을 위한 프레임워크와 API 제공 많
[SKlearn]문서(글자) 전처리 기능
scikit-learn에서 제공하는 자연어 처리 기능들에 대해 알아본다.참고 : https://datascienceschool.net/03%20machine%20learning/03.01.03%20Scikit-Learn%EC%9D%98%20%EB%AC%B8%E

scikit-learn
label encoder fit과 transform을 한번에 실행 역시 가능! 
(Scikit-learn) 분류 평가 지표
혼동 행렬(Confusion Marix)실제 값(정답)과 예측 한 것을 표로 만든 평가표분류의 예측 결과가 몇개나 맞고 틀렸는지를 확인할 때 사용한다.함수: confusion_matrix(정답, 모델예측값)결과의 0번축: 실제 class, 1번 축: 예측 classTP
(Scikit-learn) 과적합
일반화(Generalization)새로운 데이터셋에 대하여 좋은 예측 결과를 보여주는 경우과소적합(Underfitting)훈련 데이터와 테스트 데이터 모두에서 성능이 안 좋은 경우과대적합(Overfitting)훈련 데이터에 대한 예측 성능은 너무 좋지만, 일반성이 떨어
(Scikit-learn) Graphviz를 통한 tree구조 시각화
환경설정다운로드https://graphviz.org/download/설치시 자동으로 환경변수 설정됨라이브러리 설치시각화
(Scikit-learn) Binary classification 평가
시각화혼동행렬 시각화Graphviz를 통한 tree구조 시각화평가정확도(Accuracy)모든 값에서 예측한 것 중 실제 값과 일치하는 비율정밀도(Precision)Positive(양성)으로 예측 한 것 중 실제 Positive(양성)인 비율재현률(Recall)실제 Po
(Scikit-learn) Grid Search 하이퍼파라미터 튜닝
GridSearchCV지정한 하이퍼파라미터를 모두 검증하는 방식RandomizedSearchCV지정된 하이퍼파라미터중 일부를 검증하는 방식결과 조회Test set 평가
(Scikit-learn) K-최근접 이웃(KNN K-nearest Neighbors)
정의데이터들 간의 거리를 측정해 가장 가까운 K개의 데이터셋의 레이블을 참조해 분류/예측한다.거리 측정 방식유클리디안 거리(Euclidean_distance)일반적인 직선거리맨하탄 거리 (Manhattan distance)|𝑎1−𝑏1|+|𝑎2−𝑏2|기본 구현Pi
(Scikit-learn) Decision tree
독립 변수의 조건에 따라 종속 변수를 분리하는 모델기본 구현 방식데이터 셋 분할 및 결과 평가혼동 행렬을 통한 평가복잡도 제어max_depth: 트리의 최대 깊이max_leaf_nodes : 리프노드의 최대 개수max_features: 최대 사용할 Feature의 개수
(Scikit-learn) 데이터 셋 분할과 검증
Hold out 방식train, validation, test로 데이터를 나누어 성능을 검증하는 방식데이터가 적을 경우 이상치에 크게 영향을 받을 수 있음K-겹 교차검증K개의 값으로 나누어 검증과 학습을 반복한다.KFold: 데이터 순서대로 분할StratifiedKFo
(Scikit-learn) 데이터 전처리
\*\*결측치 처리\*\*행 / 열 단위 제거가능성이 높은 값으로 대체수치형: 평균, 중앙값범주형: 최빈값ML 알고리즘에 의한 추정이상치(Outlier) 처리오류값: 결측치로 처리극단치유지결측치 변환그 값의 MAX, MIN값으로 대체Feature 타입 별 전처리범주형

[MachineLearning] PUBG 승률 예측 머신러닝 모델링 - 배린이 탈출 프로젝트
PUBG Finish Placement Prediction 캐글 대회였던 PUBG 최종 승자 예측의 데이터를 활용하여 배그 초보자들에게 고수들이 어떻게 행동하는지를 데이터 근거와 함께 조언을 주려는 목적으로 ML프로젝트를 진행하였습니다.