타이타닉 kaggle 준비

매일 공부(ML)·2022년 2월 3일
0

Kaggle

목록 보기
1/4

캐클

이번 블로그는 말 그대로 캐클이 무엇이고 세계 1위는 어떤 식의 사고로 정리하고 시작하는지에 관한 것입니다.

핵심 3개 단어

  • Data

  • Algorithm

  • Insight


스토리 만들기

  • 잘 오는 고객에게는 혜택

  • 잘 오지 않는 고객을 오게 하기 위해 이벤트

  • 위와 같이 데이터를 통해서 인사이트를 얻어 유용한 스토리를 만드는 사람이 데이터 사이언티스트입니다.

    • 시각화 -> 분석 -> 인사이트 -> 스토리

Kaggle 장점

  • 자체 검증

    • 경쟁 방식이기에 나의 모델을 객관적으로 평가 가능
  • 글로벌 기업들의 데이터

    • 질 좋고 다양한 데이터를 만질 수 있다.
  • 재미

    • 경쟁, 협업을 통해 재미가 있다

머신 러닝의 종류

  • 지도학습

    • 분류

      • 3 Binary Classifications ( 0 or 1)

      *예시 1

    • 회귀

  • 비지도학습

타이타닉

  • 데이터 처리

    • 비정형 데이터를 어떻게 다루느냐가 관건
    • 완변하고 깨끗한 데이터는 우리의 성장에 도움이 안 됨
    • 빈 값 처리, 복잡한 문자열 처리, 한 눈에 보아서는 감이 안 잡히는 데이터 처리 중요
    • 남들이 어떻게 했는지 보고 흉내도 내기

  • Feature Engineering


  • 순서

    • EDA
    • Feature Engineering
    • 알고리즘
    • train 데이터 훈련
    • test 데이터 테스트
    • 0 or 1이냐 결과 예측
profile
성장을 도울 아카이빙 블로그

0개의 댓글