Aischool mini project

김상민·2023년 3월 23일
0

MachineLearning

목록 보기
2/2

데이콘 대회와 AISCHOOL 미니 프로젝트를 한번에!

https://dacon.io/competitions/official/236075/codeshare/7765?page=1&dtype=recent


동시에 진행하기위해 데이콘 전화 해지 여부 분류 AI 경진대회를 참가했다. 일단 데이터를 다운로드 하고 간단하게 살펴 봤다.

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

train = pd.read_csv('data/tele/train.csv')
test = pd.read_csv('data/tele/test.csv')
submission = pd.read_csv("data/tele/sample_submission.csv")

# object 타입의 컬럼인 ID가 남아있어서 모델을 돌릴 때 오류가 발생해서 인덱스 값으로 넘김
train = train.set_index("ID")
test = test.set_index("ID")
train.shape, test.shape
>>>>>>>>>>>>>>>>>>
((30200, 13), (12943, 12))


인덱스 번호가 있고 ID가 있어서 ID를 인덱스로 만들어줬다.

왜냐하면 submission형태로 이렇기 때문이다.

히트맵을 살펴보면... 그냥 그렇다.

정보를 보면 int and float형태이다. 딱히 카테고리화나 원핫인코딩을 할 필요는 없어보인다.

결측치는없었따.

기술통계이다.

각 컬럼별 히스토 그램을 그려봤다. 대충 알것같다.


전화해지 여부는 전화지속이 가장 많았고

배울로 살펴보면 90 : 10 비율이다.

바로 train_test_split를 해주고

모델 학습일 해줬는데
아차차

전화 해지여부는 0과 1로된 분류였는데 .......
데이터가 수치형과 정수형이다보니 착각을 해버렸다.

다른 걸 찾아봐야겠다.,... decisiontree종류로

profile
꾸준히 하고싶다

0개의 댓글