TIL_13 : EDA

JaHyeon GuΒ·2021λ…„ 7μ›” 10일
0

Data Science

λͺ©λ‘ 보기
13/16
post-thumbnail

πŸ™„ EDAλž€?


πŸ‘‰ Exploratory Data Analysis
: 탐색적 데이터 뢄석, 데이터셋을 λ‹€μ–‘ν•œ κ΄€μ μ—μ„œ μ‚΄νŽ΄λ³΄κ³  νƒμƒ‰ν•˜λ©΄μ„œ μΈμ‚¬μ΄νŠΈ νŒŒμ•…

  • 각 rowλŠ” 무엇을 μ˜λ―Έν•˜λŠ”κ°€?
  • 각 column은 무엇을 μ˜λ―Έν•˜λŠ”κ°€?
  • 각 column은 μ–΄λ–€ 뢄포λ₯Ό λ³΄μ΄λŠ”κ°€?
  • 두 column은 μ–΄λ–€ 연관성이 μžˆλŠ”κ°€?
    ❌ 곡식이 μžˆλŠ” 것은 μ•„λ‹ˆλ‹€



πŸ™„ 섀문쑰사


μ„€λ¬Έ λ¬Έν•­

  • 0~18 : μŒμ•… μ·¨ν–₯
  • 19~30 : μ˜ν™” μ·¨ν–₯
  • 31~62 : μ·¨λ―Έ/관심사
  • 63~72 : 곡포증
  • 73~75 : 건강 μŠ΅κ΄€
  • 76~132 : 성격/인생관 λ“±
  • 133~139 : μ†ŒλΉ„μŠ΅κ΄€
  • 140~146 : κΈ°λ³Έ 정보

➑ μ„€λ¬Έ μ°Έμ—¬μžλ“€μ˜ 기본정보 νŒŒμ•…ν•˜κΈ°

πŸ‘‰ μ„€λ¬Έ μ°Έκ°€μž μ£Ό μ—°λ ΉλŒ€κ°€ 남여 λͺ¨λ‘ 10λŒ€ ν›„λ°˜ 20λŒ€ 초반인 것을 μ•Œ 수 μžˆλ‹€.


πŸ‘‰ sns.jointplot() 을 톡해 킀와 λͺΈλ¬΄κ²Œ 뢄포와 ν•¨κ»˜ 상관관계도 μ•Œ 수 μžˆλ‹€.



➑ μ„€λ¬Έ μ°Έμ—¬μžλ“€μ˜ μŒμ•… μ·¨ν–₯ νŒŒμ•…ν•˜κΈ°

πŸ‘‰ df.corr() : μƒκ΄€κ³„μˆ˜ DataFrame 좜λ ₯
πŸ‘‰ sns.heatmap(df.corr()) : μƒκ΄€κ³„μˆ˜λ₯Ό heatmap 으둜 좜λ ₯



➑ ν•­λͺ©λ³„ 상관 관계 νŒŒμ•…ν•˜κΈ°

πŸ‘‰ df.corr()['Age'].sort_values(ascending=False)
: λ‚˜μ΄μ™€μ˜ 상관 κ³„μˆ˜ λ‚΄λ¦Όμ°¨μˆœ 좜λ ₯
μ–‘μˆ˜ : λ‚˜μ΄κ°€ λ“€μˆ˜λ‘ λŠ˜μ–΄λ‚˜λŠ” 것
음수 : λ‚˜μ΄κ°€ λ“€μˆ˜λ‘ μ€„μ–΄λ“œλŠ” 것
πŸ‘‰ df.corr()['Getting up'].sort_values(ascending=False)
:일찍 μΌμ–΄λ‚˜λŠ” μ‚¬λžŒκ³Όμ˜ 상관 κ³„μˆ˜ λ‚΄λ¦Όμ°¨μˆœ 좜λ ₯



➑ ν΄λŸ¬μŠ€ν„° 뢄석(Cluster Analysis) : μ°Έμ—¬μžλ“€μ˜ 관심사

πŸ‘‰ 역사와 μƒκ΄€κ³„μˆ˜ λ‚΄λ¦Όμ°¨μˆœμœΌλ‘œ 좜λ ₯

πŸ‘‰ sns.clustermap() : μœ μ‚¬ν•œ 관심사듀끼리 heatmap μ™Ό, μœ„μͺ½μ— 묢음 ν‘œν˜„

profile
IWBAGDS

0개의 λŒ“κΈ€