

각 고유값에 -> 고유 숫자 부여
라이브러리 불러오기 & 레이블 인코딩 준비

fit_transform: 한번에 학습한 결과 출력

확인

'살찔까요' 레이블 인코딩

여러 컬럼 인코딩
cols = df.select_dtypes(include='object').columns
반복문 사용

새 컬럼을 만듦(해당 컬럼이 맞으면 1, 아니면 0으로 채워짐)
활용 데이터

원핫인코딩

카테고리 확인
_

데이터 프레임으로 변환 & 합치기

원본 컬럼은 삭제

여러 컬럼 인코딩(앞, 뒤 과정은 1개 컬럼 인코딩 시와 동일)

pd.get_dummies()
평균 0, 분산 1인 표준정규분포로 변환
StandardScaler 임포트하여 바로 사용

여러 컬럼에 적용


사이킷런 데이터 불러오기




피처 이름 확인 : .feature_names

타겟 확인 : .target

데이터 확인

데이터프레임으로 변환

타겟 추가

데이터셋 확인

당뇨병 데이터

데이터 프레임으로 변환
diabetes_df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)

diabetes_df['target'] = dataset.target


X : train 데이터 확인

y : train 데이터 확인

데이터 사이즈

분류 ➡️ 모델 선택 ➡️ 학습&예측 순서
accuracy_score(실제값, 예측값)
test_size=0.3 : 데이터를 학습용 70%, 테스트용 30%로 설정
random_state : 랜덤값 고정해서 같은 결과 빼낼 때 사용

X : train 데이터 확인

y : train 데이터 확인

데이터 사이즈

회귀 ➡️ 모델 선택 ➡️ 학습&예측 순서
mean_squared_error(실제값, 예측값)