[Kaggle] Check list

KingU·2022년 7월 6일
0

kaggle

목록 보기
1/1
post-thumbnail

1. 데이터 분석에 기초한 가정 :
Assumtions based on data analysis 🤷‍♂️


1) 상관관계 : Correlating

ex) 어떤 feature가 목표에 맞는 상관관계를 가질까

2) 완성 : Completing

ex) 목표와 관련이 있는 feature를 완성하는 것
      feature를 활용해 또 다른 feature를 완성시키는 것

3) 수정 : Correcting

ex) feature의 형상을 바꾸기
      필요가 없는 feature를 drop
      feature를 활용해 새로운 feature를 추가

4) 분류 : Classifying

1, 2, 3을 통해 가정을 더 세우고 분류한다.




2. 전략을 바꾼 feature 분석 :
Analyze by pivoting feature 🎡


관찰과 가정을 확인하기 위해, feature를 전략을 바꿈으로써
feature의 상관관계를 빠르게 분석할 수 있다.
이 단계에서는 빈 값이 없는 형상에 대해서만 이 작업을 수행할 수 있다.
또한 범주형, 서수형 또는 이산형 유형의 형상에 대해서만 그렇게 하는 것이 타당하다.




3. 데이터 시각화를 통한 분석 :
Analyze by visualizing data

데이터를 분석하기 위한 시각화를 사용하여 가정을 확인할 수 있다.
=> 데이터에 맞는 시각화를 선택해서 사용해야 한다.

  • 수치적 특징의 상관 관계
    히스토그램 차트는 연속형 숫자 변수를 분석하는 데 유용
  • 숫자, 범주형의 상관관계
    하나의 그래프를 사용하여 상관 관계를 식별하기 위해 여러 feature를 결합



4. 데이터 정렬 : Wrangle data


데이터 세트의 가정과 결정을 수집하고 수정과 삭제를 행한다.

1) feature를 삭제하여 수정

feature을 삭제함으로써 속도를 높히고 분석에 용이
또한 일관성을 위하여 모든 데이터에 수행

2) 기존 feature에서 새로운 feature 추출

정규식 또는 연산을 통하여 수행

3) 범주형 feature 변환

빈도수가 많은 데이터를 모으고 매핑

4. 결측값, null 데이터 추정 후 fill

feature의 특성을 찾아 추정 후 채우기




당신의 시간이 헛되지 않는 글이 되겠습니다.
I'll write something that won't waste your time.

profile
원하는 것을 창조하고 창조한 것을 의미있게 사용하자

0개의 댓글