DecisionTreeClassifier 유방암 예측

Soyoung Park·2022년 9월 23일
0

TIL deep learning

목록 보기
8/22

문제정의: DecisionTreeClassifier 사용하여 유방암 양성(2), 악성(4) 예측

기본 라이브러리 임포트

#전처리
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn import tree
#성능평가
from sklearn import metrics

import pandas as pd
import numpy as np
# 한글폰트 패치
import matplotlib as mpl
import matplotlib.pyplot as plt
 
%config InlineBackend.figure_format = 'retina'
 
!apt -qq -y install fonts-nanum
 
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic') 
mpl.font_manager._rebuild()

데이터 준비하기

# UCI ML Repository 제공하는 Breast Cancer 데이터셋 가져오기
# https://archive.ics.uci.edu/ml/machine-learning-databases//breast-cancer-wisconsin/

uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\
breast-cancer-wisconsin/breast-cancer-wisconsin.data'


^ 이를 확인하면 열 이름을 지정해줘야 한다는 것을 볼 수 있음


^ 콜럼 이름 지정해줌

^ bare 저 친구가 object 형식임.

^위에 object 인 친구 봤더니 물음표가 들어가 있음.

^ object 를 int 타입으로 변경하는 방법


^ 데이터 분석하기 (실수! X축에 class를 없앤 것처럼 id 값도 지워줘야 했다)

^ 독립변수 데이터를 정규화

^ 학습, 테스트 데이터 분리


^ 실수 한 부분 없애주고 다시 !

DecisionTree

^DecisionTree 분류 모델 설정

^ 모델 예측하기


^ 모델 성능 평가


^ 4번 모델이 좋은 코드라고 할 수 있다.

^ 결정 트리 그래프 일단 그려져서 옆에 새 파일이 생겼다. (tree.dot 파일)

^ 위의 저장된 tree.dot 파일을 열어 그래프 그려주기.

0개의 댓글