# train_test_split

Decision Tree(Feat. Iris)
해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다 1. Iris 데이터 data : 종류를 맞추기 위한 정보(=문제) target : 종류의 인덱스(=정답) target_names : 종류의 명칭 DESCR : iris 데이터의 전체 정보 feature_names : data의 정보(무엇을 의미하는지) 1) 칼럼확인 데이터확인 타겟확인 타겟이름확인 데이터셋 정보확인 특성이름확인 2) 데이터 이해하기 데이터프레임 생성 타겟 추가 
[혼공머신] 7-1. 인공 신경망
Intro. 럭키백으로 대박 친 한빛마켓! 이젠 패션 시장까지 진출하기로 하고, 이번에도 럭키백 이벤트를 진행하기로 결정! (생선 럭키백은 무게, 길이 등의 정형 데이터로 했다면, 이번에 패션 럭키백은 이미지 픽셀을 사용할 거임.) 홍 선배🗣️ "생선 럭키백에 썼던 로지스틱 회귀 알고리즘보다 정확도를 높일 순 없을까..." 1. 패션 MNIST 데이터셋 딥러닝의 고전적인 예제 데이터셋으로, 딥러닝 라이브러리 내에 기본 내장되어 있음! 'MNIST' 데이터는 원래 손으로 쓴 0~9의 이미지인데, 이건 '패션 MNIST'라서 10종류의 패션 아이템(이미지)으로 구성되어있음. 데이터 가져오기 keras의 .load_data()함수는 훈련/테스트 세트 나눠서 데이터를 불러와 줌. 
[혼공머신] 5-2. 교차 검증과 그리드 서치
Intro. 결정트리 모델로 와인 구분하는 모델 완성! max_depth 바꿔가면서 성능 테스트 여러 번 해서 최적의 모델을 찾아야지 ㅎㅎ 그런데... 이사님🗣️ "최적의 모델을 찾는 건 좋은데, 그 과정에서 자꾸 테스트 세트로 평가를 하면 테스트 세트에만 잘 맞는 모델이 되어버리는 거 아닌가요?" ㅇ ㅠㅇ 1. 검증세트와 교차검증 해결책은 생각보다 간단했다. 테스트세트 말고, 따로 검증용 세트를 또 준비하면 된다! 검증세트 원래는 훈련/테스트만 나눴지만, 이젠 훈련/검증/테스트 3개로 나눔. (보통 20%) ☝🏻일반적인 활용 과정 1) 모델을 훈련세트로 훈련(fit)하고, 검증세트로 평가(score)한다 2) 매개변수 바꿔가며 scor

[혼공머신] 2-2. 데이터 전처리
Intro. 김 팀장🗣️ "문제가 생겼어. 길이 25cm, 무게 150g이면 분명 도미일 텐데 자네 모델은 빙어라고 예측한다는군?" ㅇ ~ㅇ.... 1. 모델 만들기 전에 만든 모델 그대로 써도 되지만, 좀 더 세련된 방법으로 다시 만들어보자! 입력 데이터 준비 by NUMPY .column_stack(()) : 전달받은 리스트를 세로로 세워서 이어 붙이는 함수 타깃 데이터 준비 by NUMPY np.ones() : 원하는 크기의 배열에 1을 채워서 만들어주는 함수 np.zeros() : 원하는 크기의 배열에 0을 채워서 만들어주는 함수 .concatenate(()) : 첫 번째 차원에 따라

90일차 시작.... (sklearn 회귀모델)
📊 sklearn 회귀 모델 📌 sklearn 단순회귀모델 학습과정 > * 1. 라이브러리 Import > * 2. 데이터 준비 > * 3. 상관관계 분석 > * 4. x에 대해 feature Scaling 적용 > * 5. 상관관계 그래프 그리기 > * 6. 모델 생성 > * 7. 모델 성능 파악용 함수 생성 > * 8. 모델 성능 측정 > * 9. LinearRegression 모델 성능 측정 결과 분석 > - r2_score = 0.998 = 99.8% 설명력이므로 feature가 label을 잘 설명하는 것으로 판단 >
[Aiffel] 아이펠 사전학습 정리
혼자 공부하는 머신러닝 + 딥러닝을 읽고 정리한 내용입니다. 1. 인공지능과 머신러닝, 딥러닝 1) 인공지능 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 종류 강인공지능(인공일반지능) 사람과 구분하기 어려운 지능을 가진 컴퓨터 시스템 약인공지능 특정 분야에서 사람을 보조하는 정도 2) 머신러닝 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 인공지능의 하위 분야 중 지능을 구현하기 위한 소프트웨어를 담당하는 핵심분야 대표적인 라이브러리: 사이킷 런 3) 딥러닝 머신러닝 알고리즘 중 인공신경망을 기반으로 한 방법을 통칭 대표적인 라이브러리: 턴서플로, 파이토치 2. 마켓과 머신러닝 1) 키워드 특성: 데이터를 표현하는 하나의 성질 훈련: 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정 모
학습데이터와 테스트 데이터 나누기
앞선 포스팅에서 accuracy가 100% 나온 것을 기억할 것이다. 예측을 사용할 시 새로운 데이터를 넣어야 하는데, 동일한 데이터로 훈련과 예측을 하니 정확도가 100%가 나오는 것이다. 이럴 때는 train dataset, test dataset을 분류해줘서 학습시키면 문제가 해결된다. 문제 해결이라기 보단 분리는 필수적으로 해줘야한다. scikit-learn에서는 이 필수 기능을 당연히 API로 제공하고 있으며, modelselection의 traintest_split()함수이다. traintestsplit는 feature matrics for train, feature matrics for test data target vector for train data target vector for test data 위 4개를 묶어서 반환 해주며, unpacking해서 쓴다. 이제 train data, test data를 나눈 것을 적용해서 학습
사이킷런으로 붓꽃 품종 예측하기
붓꽃 품종 예측하기 sklearn.datasets 내의 모듈은 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다. sklearn.tree 내의 모듈은 트리 기반 ML 알고리즘(Machine Learning Algorithm)을 구현한 클래스의 모임이다. sklearn.model_selection은 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임이다. 특징으로는 sepal length, sepal width, petal length, petal width가 있고,