νμμ λ°μ΄ν° λΆμ(EDA, Exploratory Data Analysis)μ κΈ°μ‘΄μ ν΅κ³νμ΄ μ 보μ μΆμΆ κ³Όμ μμ κ°μ€ κ²μ λ±μ μΉμ°μ³ μλ£κ° κ°μ§κ³ μλ λ³Έμ°μ μλ―Έλ₯Ό μ°Ύλλ° μ΄λ €μμ΄ μμ΄, μ΄λ₯Ό 보μνκ³ μ μ£Όμ΄μ§ μλ£λ§ κ°μ§κ³ λ μΆ©λΆν μ 보λ₯Ό μ°Ύμ μ μλλ‘ νλ μλ£ λΆμ λ°©λ²μ λ§νλ€.
νμμ λ°μ΄ν° λΆμμ μνν΄μΌ νλ μ΄μ
λ€μμ μμ μμ νμμ λ°μ΄ν° λΆμμ μννλ λ°©λ²μ΄λ€.
[νμΌ]ν β [μ΅μ ] β [μΆκ° κΈ°λ₯] β λΆμ λꡬ (ν©) μ ν β [μ΄λ] β λΆμ λꡬ (ν©) μ²΄ν¬ β [νμΈ]
λ€μκ³Ό κ°μ΄ μΆκ° κΈ°λ₯μ μ ννλ©΄ μ¬λ¬ ν΅κ³μ λΆμ κΈ°λ²μ μ¬μ©ν μ μλ€.
μ¬κΈ°μ κΈ°μ ν΅κ³λ²μ μ λ ₯ λ²μμ λ°μ΄ν°μ λν μΌλ³λ ν΅κ³ λ³΄κ³ μλ₯Ό λ§λ€μ΄ λ°μ΄ν°μ μ€μ¬ μΆμΈμ λ³λμ±μ λν μ 보λ₯Ό μ 곡νλ€.
νκ· , νμ€ μ€μ°¨, μ€μκ°, μ΅λΉκ°, νμ€ νΈμ°¨ λ± λ€μν ν΅κ³λμ μ 곡νλλ° κ°κ°μ μλ―Έλ λ€μκ³Ό κ°λ€.
νΌλ² ν
μ΄λΈ(Pivot Table)μ΄λ κ°λ¨νκ² λ°μ΄ν°λ₯Ό μμ½νλ ν΅κ³νλ₯Ό λ§νλ€.
νΌλ² ν
μ΄λΈμ λ§λλ λ°©λ²μ [μ½μ
]ν β [νΌλ² ν
μ΄λΈ] ν΄λ¦ β λ°μ΄ν° μ ν μΌλ‘ λ§λ€ μ μλ€.
νΌλ² ν μ΄λΈ νλλ₯Ό 보면 νν°, μ΄κ³Ό ν, κ°μ΄ 보μ΄λλ° μ΄ κ³³μ μνλ λ°μ΄ν°λ₯Ό λλκ·Έ μ€ λλμ΄λ 체ν¬λ°μ€λ₯Ό μ ννλ λ°©λ²μΌλ‘ μμ½λ λ°μ΄ν° ν΅κ³νλ₯Ό λ§λ€ μ μλ€.
λν [μ½μ ] ν β [μ¬λΌμ΄μ] λ₯Ό ν΅ν΄ μνλ λ°μ΄ν°λ₯Ό μ ννμ¬ κ·Έ λ°μ΄ν°μ ν΄λΉνλ κ°λ§ νν°λ§ν΄μ 보μ¬μ€ μ μλ€.
κ²°μΈ‘μΉ μ²λ¦¬ λ°©λ²μ κ·Έ κ²°μΈ‘μΉμ μ ν λ° λΉμ¨μ λ°λΌ μΈ κ°μ§λ‘ ꡬλΆλλ€.
- μ κ±° : κ²°μΈ‘μΉκ° λ°μν ν, μ΄μ μμ νλ κ°μ₯ μ½κ³ , λ¨μν λ°©μ β κ²°μΈ‘μΉλ₯Ό μ κ±°νλ©΄ κ²°μΈ‘μΉκ° μλ μλ²½ν λ°μ΄ν° μ μ λ§λ€ μ μμ§λ§, κ²°μΈ‘μΉκ° ν¬ν¨λ λ°μ΄ν°κ° λͺ¨λ μμ λμ΄ λ°μ΄ν°μ ν¬κΈ°μ μμ€ λ°μ β κ²½μ°μ λ°λΌ κ²°μΈ‘μΉλ₯Ό 무μνκ³ κ΄μΈ‘μΉλ§μΌλ‘ λΆμμ μνν κ²½μ° ν΅κ³μ νΈν₯μ΄ μκΈΈ κ°λ₯μ±μ΄ 컀μ§
- μΉν : κ²°μΈ‘μΉλ₯Ό μ λΉν λ°©λ²μΌλ‘ λ체νλ κ² β λ°μ΄ν°μ νΉμ±μ λ§κ² μ λΉν νκ· , μ€μκ°, μ΅λΉκ° λ±μΌλ‘ λ체 κ°λ₯νλ, νκ· κ° λ±μΌλ‘ λ¨μ λ체νλ λ°©λ²μ μλ£μ νΈν₯μ±μ λμ΄κ³ νΉμ±λ€ κ°μ μκ΄ κ΄κ³λ₯Ό μ곑ν μ μμ β λ°μ΄ν°μ λν λλ©μΈ μ§μμ΄ μμ΄μΌ ν¨μ¨μ μΌλ‘, μ νν κ²°μΈ‘μΉ λ체 κ°λ₯
- λͺ¨λΈ κΈ°λ° μ²λ¦¬ : κ²°μΈ‘μΉλ₯Ό μμΈ‘νλ μλ‘μ΄ λͺ¨λΈμ ꡬμ±ν΄, κ²°μΈ‘μΉλ₯Ό μ±μ λκ°λ λ°©μ β λ³μμ νΉμ±μ λ°λΌ Knn, PolyRegression λ±μ λ°©λ²μ νμ©ν΄ λͺ¨λΈμ μλ§κ² κ²°μΈ‘μΉλ₯Ό μ κ±°νκ±°λ λ체νλ λ°©λ²
μ΄μμΉλ₯Ό νμ§νλ λ°©λ²μ λ κ°μ§κ° μλ€.
- IQRμ νμ©ν μ΄μμΉ νμ§
IQR(Inter Quartile Range) : 1μ¬λΆμμμ 3μ¬λΆμμ κ°μ 거리 = 3μ¬λΆμμ - 1μ¬λΆμμ
μ¬κΈ°μ 1μ¬λΆμμλ₯Ό Q1μ΄λΌ νκ³ , 3μ¬λΆμμλ₯Ό Q3λΌκ³ ν λ, μ΄μμΉλ Q1 - 1.5 IQRλ³΄λ€ μκ±°λ, Q3 + 1.5 IQRλ³΄λ€ ν° κ°μ μ΄μμΉλ‘ νλ€.- Z-Scoreλ₯Ό νμ©ν μ΄μμΉ νμ§
(μ¬κΈ°μ λ νκ· , λ νμ€νΈμ°¨λ₯Ό μλ―Έ)
Z-Scoreκ° 3 μ΄μμ΄κ±°λ -3 μ΄νλ©΄ μΌλ°μ μΌλ‘ μ΄μμΉλ‘ νλ¨νλ€.- Boxplotμ νμ©ν μ΄μμΉ νμ§
Box Plot (μμ λν) : 5κ°μ μμΉμ μλ£λ₯Ό νμ©ν΄ λ°μ΄ν°μ λΆν¬μ λ²μλ₯Ό ννν κ·Έλν
λ€μμμ μ΅λκ° λ²μλ₯Ό λ²μ΄λ κ°μ μ΄μμΉλ‘ νλ¨νλ€.
Box Plotμ 그리λ λ°©λ²
[μ½μ
]ν β [ν΅κ³ μ°¨νΈ μ½μ
] ν΄λ¦ β [μμ μμΌ]
μΌλ°μ μΌλ‘ μκ΄ κ³μμ μ λκ°μ΄ 0.7μ΄μμ΄λ©΄ κ°ν μκ΄κ΄κ³λ₯Ό κ°μ§λ€κ³ λ³Έλ€.
μκ΄ λΆμμ [λ°μ΄ν°]ν β [λ°μ΄ν° λΆμ] β [μκ΄ λΆμ]μ ν΅ν΄ νμΈν μ μλ€.
λ€μμ λ§€μΆ, κΈ°κ°, κ΄κ³ λΉ λ± μ£Όμ μ§ν λ³μλ€μ μκ΄κ³μλ₯Ό νμ
ν κ²μ΄λ€. μ¬κΈ°μ μ‘°κ±΄λΆ μμμ νμ©ν΄ κ°ν μκ΄ κ΄κ³κ° μλ€κ³ νλ¨λλ κ°μ λΉ¨κ°μμΌλ‘ νμνλ€.
EDAμμ μκ΄ λΆμμ μΈκ³Ό κ΄κ³κ° μμ κ²μΌλ‘ μμλλ λ³μλ€μ μ λ³ν΄ λΆμμ μ°μ μμλ₯Ό μ ν μ μμ§λ§, κ°ν μκ΄ κ΄κ³λ₯Ό κ°μ§κ³ μλ€κ³ ν΄μ λ λ³μκ° λ°λμ μΈκ³Ό κ΄κ³λ₯Ό κ°μ§λ κ²μ μλκΈ° λλ¬Έμ μκ΄ κ΄κ³λ₯Ό 무쑰건μ μΌλ‘ λ§Ήμ ν΄μλ μλλ€.
μ°μ λ : λ°μ΄ν°λ₯Ό μ μΌλ‘ ννν΄ ν©μ΄μ Έ μλ μ λλ₯Ό νμ
νλ κ·Έλν
λ€μμ μ μκ΄ κ΄κ³λ₯Ό μ°Έκ³ νμ¬ κ·Έλ¦° μ°μ λμ΄λ€.
κ°ν μκ΄ κ΄κ³λ₯Ό κ°μ§μλ‘ λ°μ΄ν°κ° μΆμΈμ μ μ§μ€λμ΄ μλ κ²μ νμΈν μ μλ€.