πŸ“‹[Excel] 탐색적 데이터 뢄석(EDA)

thisk336Β·2023λ…„ 9μ›” 5일
0

Excel

λͺ©λ‘ 보기
2/11
post-thumbnail

탐색적 데이터 λΆ„μ„μ΄λž€?

탐색적 데이터 뢄석(EDA, Exploratory Data Analysis)은 기쑴의 톡계학이 μ •λ³΄μ˜ μΆ”μΆœ κ³Όμ •μ—μ„œ κ°€μ„€ κ²€μ • 등에 치우쳐 μžλ£Œκ°€ 가지고 μžˆλŠ” λ³Έμ—°μ˜ 의미λ₯Ό μ°ΎλŠ”λ° 어렀움이 μžˆμ–΄, 이λ₯Ό λ³΄μ™„ν•˜κ³ μž 주어진 자료만 가지고도 μΆ©λΆ„ν•œ 정보λ₯Ό 찾을 수 μžˆλ„λ‘ ν•˜λŠ” 자료 뢄석 방법을 λ§ν•œλ‹€.

탐색적 데이터 뢄석을 μˆ˜ν–‰ν•΄μ•Ό ν•˜λŠ” 이유

  • μˆ˜μ§‘λœ λ°μ΄ν„°μ˜ νŠΉμ„± 및 뢄포λ₯Ό νŒŒμ•…ν•΄μ•Ό ν•œλ‹€
  • 결츑치, μ΄μƒμΉ˜μ˜ 쑴재 유무λ₯Ό νŒŒμ•…ν•  수 μžˆλ‹€
  • 탐색적 데이터 λΆ„μ„μ˜ κ²°κ³Όλ₯Ό λ°”νƒ•μœΌλ‘œ 뢄석에 ν•„μš”ν•œ 데이터 μ „μ²˜λ¦¬λ₯Ό μˆ˜ν–‰ν•  수 μžˆλ‹€
  • κ°€μž₯ μ ν•©ν•œ 뢄석 방법을 κ²°μ •ν•  수 μžˆλ‹€

λ‹€μŒμ€ μ—‘μ…€μ—μ„œ 탐색적 데이터 뢄석을 μˆ˜ν–‰ν•˜λŠ” 방법이닀.

1. 데이터 뢄석 도ꡬ ν™œμš©

[파일]νƒ­ β†’ [μ˜΅μ…˜] β†’ [μΆ”κ°€ κΈ°λŠ₯] β†’ 뢄석 도ꡬ (팩) 선택 β†’ [이동] β†’ 뢄석 도ꡬ (팩) 체크 β†’ [확인]

λ‹€μŒκ³Ό 같이 μΆ”κ°€ κΈ°λŠ₯을 μ„ νƒν•˜λ©΄ μ—¬λŸ¬ 톡계적 뢄석 기법을 μ‚¬μš©ν•  수 μžˆλ‹€.

μ—¬κΈ°μ„œ 기술 톡계법은 μž…λ ₯ λ²”μœ„μ˜ 데이터에 λŒ€ν•œ μΌλ³€λŸ‰ 톡계 λ³΄κ³ μ„œλ₯Ό λ§Œλ“€μ–΄ λ°μ΄ν„°μ˜ 쀑심 좔세와 변동성에 λŒ€ν•œ 정보λ₯Ό μ œκ³΅ν•œλ‹€.

평균, ν‘œμ€€ 였차, 쀑앙값, μ΅œλΉˆκ°’, ν‘œμ€€ 편차 λ“± λ‹€μ–‘ν•œ ν†΅κ³„λŸ‰μ„ μ œκ³΅ν•˜λŠ”λ° 각각의 μ˜λ―ΈλŠ” λ‹€μŒκ³Ό κ°™λ‹€.

  • ν‘œμ€€ 였차 : ν‘œλ³Έλ“€μ˜ ν‰κ· μ˜ 전체 평균과 λ–¨μ–΄μ Έ μžˆλŠ” 정도
  • 쀑앙값 : 데이터λ₯Ό μˆœμ„œλŒ€λ‘œ μ •λ ¬ν–ˆμ„ λ•Œ μœ„μΉ˜μ μœΌλ‘œ κ°€μž₯ 쀑앙에 μžˆλŠ” κ°’(ex. [1,2,3,4,5]의 쀑앙값은 3)
  • μ΅œλΉˆκ°’ : κ°€μž₯ 많이 λ°˜λ³΅λ˜λŠ” 데이터
  • ν‘œμ€€ 편차 : 평균과 각 λ°μ΄ν„°λ“€μ˜ 편차λ₯Ό λ‚˜νƒ€λƒ„(λΆ„μ‚°μ˜ 제곱근 = 뢄산에 루트λ₯Ό μ”Œμš΄ κ°’)
  • λΆ„μ‚° : 데이터가 평균을 κΈ°μ€€μœΌλ‘œ μ–Όλ§ˆλ‚˜ λΆ„μ‚°λ˜μ–΄ μžˆλŠ”μ§€(퍼져 μžˆλŠ”μ§€)λ₯Ό 의미(뢄산이 크면 데이터가 많이 λΆ„μ‚°λ˜μ–΄ 있음)
  • 첨도 : 데이터 λΆ„ν¬μ˜ λΎ°μ‘±ν•œ 정도(값이 3이면 μ •κ·œλΆ„ν¬, 3보닀 크면 λ‚©μž‘ν•œ 뢄포, 3보닀 μž‘μœΌλ©΄ λΎ°μ‘±ν•œ 뢄포)
  • μ™œλ„ : 데이터 뢄포가 치우쳐 μžˆλŠ” 정도(평균과 쀑앙값이 κ°™μœΌλ©΄ μ™œλ„λŠ” 0, μ™œλ„κ°€ μ–‘μˆ˜μ΄λ©΄ 였λ₯Έμͺ½μœΌλ‘œ 꼬리가 κΈ΄ 뢄포, μ™œλ„κ°€ 음수이면, μ™Όμͺ½μœΌλ‘œ 꼬리가 κΈ΄ 뢄포)
    λ˜ν•œ 각각의 ν†΅κ³„λŸ‰μ€ μ—‘μ…€μ˜ ν•¨μˆ˜λ‘œλ„ 확인할 수 μžˆλ‹€.
  • 합계 : SUM
  • 평균 : AVERAGE
  • μ΅œλŒ€κ°’ : MAX
  • μ΅œμ†Œκ°’ : MIN
  • 쀑앙값 : MEDIAN
  • μ΅œλΉˆκ°’ : MODE
  • λΆ„μ‚° : VAR
  • ν‘œμ€€νŽΈμ°¨ : STDEV

2. ν”Όλ²— ν…Œμ΄λΈ” ν™œμš©

ν”Όλ²— ν…Œμ΄λΈ”(Pivot Table)μ΄λž€ κ°„λ‹¨ν•˜κ²Œ 데이터λ₯Ό μš”μ•½ν•˜λŠ” ν†΅κ³„ν‘œλ₯Ό λ§ν•œλ‹€.
ν”Όλ²— ν…Œμ΄λΈ”μ„ λ§Œλ“œλŠ” 방법은 [μ‚½μž…]νƒ­ β†’ [ν”Όλ²— ν…Œμ΄λΈ”] 클릭 β†’ 데이터 선택 으둜 λ§Œλ“€ 수 μžˆλ‹€.

ν”Όλ²— ν…Œμ΄λΈ” ν•„λ“œλ₯Ό 보면 ν•„ν„°, μ—΄κ³Ό ν–‰, 값이 λ³΄μ΄λŠ”λ° 이 곳에 μ›ν•˜λŠ” 데이터λ₯Ό λ“œλž˜κ·Έ μ•€ λ“œλžμ΄λ‚˜ μ²΄ν¬λ°•μŠ€λ₯Ό μ„ νƒν•˜λŠ” λ°©λ²•μœΌλ‘œ μš”μ•½λœ 데이터 ν†΅κ³„ν‘œλ₯Ό λ§Œλ“€ 수 μžˆλ‹€.

λ˜ν•œ [μ‚½μž…] νƒ­ β†’ [μŠ¬λΌμ΄μ„œ] λ₯Ό 톡해 μ›ν•˜λŠ” 데이터λ₯Ό μ„ νƒν•˜μ—¬ κ·Έ λ°μ΄ν„°μ˜ ν•΄λ‹Ήν•˜λŠ” κ°’λ§Œ ν•„ν„°λ§ν•΄μ„œ 보여쀄 수 μžˆλ‹€.

3. κ²°μΈ‘μΉ˜μ™€ μ΄μƒμΉ˜ 탐색

  • 결츑치(Missing Value) : 데이터에 값이 μ—†λŠ” 것
    NA : Not Available (μœ νš¨ν•˜μ§€ μ•Šμ€)
    NaN : Not a Number (μˆ«μžκ°€ μ•„λ‹Œ)
    Null : 아무것도 μ‘΄μž¬ν•˜μ§€ μ•ŠμŒμ„ 의미
    빈 μΉΈ : 데이터가 μž…λ ₯λ˜μ§€ μ•ŠμŒ

결츑치 처리 방법은 κ·Έ 결츑치의 μœ ν˜• 및 λΉ„μœ¨μ— 따라 μ„Έ κ°€μ§€λ‘œ κ΅¬λΆ„λœλ‹€.

  1. 제거 : κ²°μΈ‘μΉ˜κ°€ λ°œμƒν•œ ν–‰, 열을 μ‚­μ œν•˜λŠ” κ°€μž₯ 쉽고, λ‹¨μˆœν•œ 방식 β†’ 결츑치λ₯Ό μ œκ±°ν•˜λ©΄ κ²°μΈ‘μΉ˜κ°€ μ—†λŠ” μ™„λ²½ν•œ 데이터 셋을 λ§Œλ“€ 수 μžˆμ§€λ§Œ, κ²°μΈ‘μΉ˜κ°€ ν¬ν•¨λœ 데이터가 λͺ¨λ‘ μ‚­μ œλ˜μ–΄ λ°μ΄ν„°μ˜ 크기의 손싀 λ°œμƒ β†’ κ²½μš°μ— 따라 결츑치λ₯Ό λ¬΄μ‹œν•˜κ³  κ΄€μΈ‘μΉ˜λ§ŒμœΌλ‘œ 뢄석을 μ‹œν–‰ν•  경우 톡계적 편ν–₯이 생길 κ°€λŠ₯성이 컀짐
  2. μΉ˜ν™˜ : 결츑치λ₯Ό μ λ‹Ήν•œ λ°©λ²•μœΌλ‘œ λŒ€μ²΄ν•˜λŠ” 것 β†’ λ°μ΄ν„°μ˜ νŠΉμ„±μ— 맞게 μ λ‹Ήν•œ 평균, 쀑앙값, μ΅œλΉˆκ°’ λ“±μœΌλ‘œ λŒ€μ²΄ κ°€λŠ₯ν•˜λ‚˜, 평균값 λ“±μœΌλ‘œ λ‹¨μˆœ λŒ€μ²΄ν•˜λŠ” 방법은 자료의 편ν–₯성을 높이고 νŠΉμ„±λ“€ κ°„μ˜ 상관 관계λ₯Ό μ™œκ³‘ν•  수 있음 β†’ 데이터에 λŒ€ν•œ 도메인 지식이 μžˆμ–΄μ•Ό 효율적으둜, μ •ν™•νžˆ 결츑치 λŒ€μ²΄ κ°€λŠ₯
  3. λͺ¨λΈ 기반 처리 : 결츑치λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” μƒˆλ‘œμš΄ λͺ¨λΈμ„ ꡬ성해, 결츑치λ₯Ό μ±„μ›Œ λ‚˜κ°€λŠ” 방식 β†’ λ³€μˆ˜μ˜ νŠΉμ„±μ— 따라 Knn, PolyRegression λ“±μ˜ 방법을 ν™œμš©ν•΄ λͺ¨λΈμ— μ•Œλ§žκ²Œ 결츑치λ₯Ό μ œκ±°ν•˜κ±°λ‚˜ λŒ€μ²΄ν•˜λŠ” 방법
  • μ΄μƒμΉ˜ : νŠΉμ • μ§€μ •λœ 그룹에 λΆ„λ₯˜λ˜μ§€ λͺ»ν•˜λŠ” κ°’μœΌλ‘œ, μ •μƒκ΅°μ˜ μƒν•œκ³Ό ν•˜ν•œμ˜ λ²”μœ„λ₯Ό λ²—μ–΄λ‚˜ μžˆκ±°λ‚˜ νŒ¨ν„΄μ—μ„œ λ²—μ–΄λ‚œ 수치 β†’ 일반적으둜 -3Οƒ(ν‘œμ€€νŽΈμ°¨) 미만, +3Οƒ 초과인 값을 μ΄μƒμΉ˜λ‘œ νŒμ •

μ΄μƒμΉ˜λ₯Ό νƒμ§€ν•˜λŠ” 방법은 두 가지가 μžˆλ‹€.

  1. IQR을 ν™œμš©ν•œ μ΄μƒμΉ˜ 탐지
    IQR(Inter Quartile Range) : 1μ‚¬λΆ„μœ„μˆ˜μ™€ 3μ‚¬λΆ„μœ„μˆ˜ κ°„μ˜ 거리 = 3μ‚¬λΆ„μœ„μˆ˜ - 1μ‚¬λΆ„μœ„μˆ˜
    μ—¬κΈ°μ„œ 1μ‚¬λΆ„μœ„μˆ˜λ₯Ό Q1이라 ν•˜κ³ , 3μ‚¬λΆ„μœ„μˆ˜λ₯Ό Q3라고 ν•  λ•Œ, μ΄μƒμΉ˜λŠ” Q1 - 1.5 IQR보닀 μž‘κ±°λ‚˜, Q3 + 1.5 IQR보닀 큰 값을 μ΄μƒμΉ˜λ‘œ ν•œλ‹€.
  2. Z-Scoreλ₯Ό ν™œμš©ν•œ μ΄μƒμΉ˜ 탐지
    z=z= xβˆ’ΞΌΟƒx-\mu\over\sigma (μ—¬κΈ°μ„œ /mu/muλŠ” 평균, /sigma/sigmaλŠ” ν‘œμ€€νŽΈμ°¨λ₯Ό 의미)
    Z-Scoreκ°€ 3 μ΄μƒμ΄κ±°λ‚˜ -3 μ΄ν•˜λ©΄ 일반적으둜 μ΄μƒμΉ˜λ‘œ νŒλ‹¨ν•œλ‹€.
  3. Boxplot을 ν™œμš©ν•œ μ΄μƒμΉ˜ 탐지
    Box Plot (μƒμž λ„ν‘œ) : 5개의 수치적 자료λ₯Ό ν™œμš©ν•΄ λ°μ΄ν„°μ˜ 뢄포와 λ²”μœ„λ₯Ό ν‘œν˜„ν•œ κ·Έλž˜ν”„

    λ‹€μŒμ—μ„œ μ΅œλŒ€κ°’ λ²”μœ„λ₯Ό λ²—μ–΄λ‚œ 값을 μ΄μƒμΉ˜λ‘œ νŒλ‹¨ν•œλ‹€.

Box Plot을 κ·Έλ¦¬λŠ” 방법
[μ‚½μž…]νƒ­ β†’ [톡계 차트 μ‚½μž…] 클릭 β†’ [μƒμž μˆ˜μ—Ό]

4. 상관 뢄석과 산점도λ₯Ό ν™œμš©ν•œ EDA

  • 상관 뢄석 : 두 λ³€μˆ˜κ°€ μ–΄λ–€ μ„ ν˜•μ  관계λ₯Ό κ°–κ³  μžˆλŠ”μ§€λ₯Ό λΆ„μ„ν•˜λŠ” 방법
  • 상관 관계 : ν•œμͺ½μ΄ μ¦κ°€ν•˜λ©΄ λ‹€λ₯Έ μͺ½λ„ μ¦κ°€ν•˜κ±°λ‚˜ λ°˜λŒ€λ‘œ κ°μ†Œλ˜λŠ” κ²½ν–₯을 μΈμ •ν•˜λŠ” 두 μ–‘(量) μ‚¬μ΄μ˜ 톡계적 관계
  • 상관 κ³„μˆ˜ : 상관 κ³„μˆ˜ r은 두 λ³€μˆ˜ μ‚¬μ΄μ˜ 상관성을 λ‚˜νƒ€λ‚΄λ©° 일반적으둜 ν”Όμ–΄μŠ¨(Pearson) 상관 κ³„μˆ˜λ₯Ό μ‚¬μš©, 상관 κ³„μˆ˜κ°€ 1에 κ°€κΉŒμšΈ 수둝 μ–‘μ˜ 상관 관계(μ •λΉ„λ‘€), -1에 κ°€κΉŒμšΈμˆ˜λ‘ 음의 상관 관계(λ°˜λΉ„λ‘€)

일반적으둜 상관 κ³„μˆ˜μ˜ μ ˆλŒ“κ°’μ΄ 0.7이상이면 κ°•ν•œ 상관관계λ₯Ό 가진닀고 λ³Έλ‹€.

상관 뢄석은 [데이터]νƒ­ β†’ [데이터 뢄석] β†’ [상관 뢄석]을 톡해 확인할 수 μžˆλ‹€.

λ‹€μŒμ€ 맀좜, κΈ°κ°„, κ΄‘κ³ λΉ„ λ“± μ£Όμš” μ§€ν‘œ λ³€μˆ˜λ“€μ˜ μƒκ΄€κ³„μˆ˜λ₯Ό νŒŒμ•…ν•œ 것이닀. μ—¬κΈ°μ„œ 쑰건뢀 μ„œμ‹μ„ ν™œμš©ν•΄ κ°•ν•œ 상관 관계가 μžˆλ‹€κ³  νŒλ‹¨λ˜λŠ” 값을 λΉ¨κ°„μƒ‰μœΌλ‘œ ν‘œμ‹œν–ˆλ‹€.

EDAμ—μ„œ 상관 뢄석은 인과 관계가 μžˆμ„ κ²ƒμœΌλ‘œ μ˜ˆμƒλ˜λŠ” λ³€μˆ˜λ“€μ„ 선별해 λΆ„μ„μ˜ μš°μ„ μˆœμœ„λ₯Ό μ •ν•  수 μžˆμ§€λ§Œ, κ°•ν•œ 상관 관계λ₯Ό 가지고 μžˆλ‹€κ³  ν•΄μ„œ 두 λ³€μˆ˜κ°€ λ°˜λ“œμ‹œ 인과 관계λ₯Ό κ°€μ§€λŠ” 것은 μ•„λ‹ˆκΈ° λ•Œλ¬Έμ— 상관 관계λ₯Ό 무쑰건적으둜 λ§Ήμ‹ ν•΄μ„œλŠ” μ•ˆλœλ‹€.

산점도 : 데이터λ₯Ό 점으둜 ν‘œν˜„ν•΄ 흩어져 μžˆλŠ” 정도λ₯Ό νŒŒμ•…ν•˜λŠ” κ·Έλž˜ν”„

λ‹€μŒμ€ μœ„ 상관 관계λ₯Ό μ°Έκ³ ν•˜μ—¬ κ·Έλ¦° 산점도이닀.
κ°•ν•œ 상관 관계λ₯Ό κ°€μ§ˆμˆ˜λ‘ 데이터가 좔세선에 μ§‘μ€‘λ˜μ–΄ μžˆλŠ” 것을 확인할 수 μžˆλ‹€.

0개의 λŒ“κΈ€