EDA시작하기

매일 공부(ML)·2022년 2월 5일
0

Kaggle

목록 보기
3/4

주요 내용

  • EDA이유

    • 왜 EDA가 필요한지 생각하기
  • 데이터 보기

    • 다양한 데이터 보기
    • 방법을 통해 데이터 개요 보기
  • 트레인 및 테스트 Y축 보존

    • 추후 사용을 위해 테스트 및 트레인 데이터 크기와 y축 저장
  • 트레인 및 테스트 데이터 연결

    • 트레인 및 테스트 데이터를 연결하여 data만들기

Data 설명

  • 훈련용 데이터: train.csv

    • 훈련용 데이터를 분석하여(EDA)
  • 최종 시험용 데이터: test.csv

    • 테스트 데이터에 대한 예측 결과를 내어 이에 대한 판정 받기
  • train.csv + test.csv = data

    • 항목 고칠 때 한꺼번에 고치려고 합침
    • 머신러닝을 만들어서 전체 데이터 대한 Feature Engineering
  • Gender Submission

    • 남자는 모두 사망 여자는 모두 생존을 기록한 파일
    • 남자 생존과 여자 사망을 못 맞추는 좋은 결과 시스템은 아님

EDA는 왜 필요한가?


Column내용 파악

챌린지에서 주어진 승객들에게 순서대로 번호 준 것 : passenger ID , 승객 연번

Train파일에는 답이 있지만 Test파일에선 빈 값: Survived 생존 여부 0=NO, 1=YES

Pclass 선실등급 1=1st, 2=2nd, 3= 3rd

Sex = male Female

Age 나이: 여기에 빈 값이 많아서 어떻게 처리하는지 중요

Sibsp :형제 자매의 수/배우자 등이 승선한 경우의 수, 같이 탄 형제의 수 또는 배우자 또는 배우자+형제의 수

Parch 부모나 자식과 같이 탄 경우 수, 부모+아이의 가족 탑승자 수

Ticket 표 번호, 티켓에 주어진 표의 번호

Fare 요금, 티켓 가격의 금액

Cabin 선실 번호로 여기에도 빈 값이 많음

embarked 승선한 항구, C= Cherbourg, Q = Queenstown, S= Southampton

데이터 병합

profile
성장을 도울 아카이빙 블로그

0개의 댓글