[MATCH_통계를 활용한 탐색적 데이터 분석] 1주차 EDA

joseon0thing·2024년 7월 23일
0

R

목록 보기
1/1

EDA의 목적

: 데이터를 분석하는 분석자의 가설을 정형화하고 세분화하는 것을 돕기 위함.

확증적 자료분석 CDA

: 가설들을 증명해가는 방법
초기 분석점을 찾아 주는 SCREENED XS 와 같음.

탐색적 자료분석 EDA

: 데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법
-> 탐색만으로 얻는 방법

분석의 첫 단계
데이터 마이닝도 EDA에 속한다.

John advocated the practice of exploratory data analysis as a critical part of the scientific process

자료의 유형

일변량 자료 (Univeariate data)

: 변수가 하나로 구성된 자료
단 하나의 스칼라(하나의 수치만으로 표시되는 양) 성분으로 이뤄진 경우

다변량 자료 (Multivariate)

: 변수가 2개 이상으로 구성된 자료
한 자료가 다른 자료에 영향을 주거나 다른 자료에 의해 결정되는 구조

변수의 유형

질적 변수

: 자료의 값이 아닌 나타내는 의미로 이뤄진 변수

  • 이진형 : 두 가지 가능한 결과만 가지는 변수
    EX) 동전

  • 명목형 : 두 개 이상의 범주를 가지지만 그 사이에는 순서나 계급이 없는 변수
    EX) 혈액형

  • 순위형 : 두 개 이상의 범주를 가지며 그 사이에 순서나 계급이 있는 변수
    EX) 학력

양적 변수

: 측정 대상의 값 자체를 사용하는 변수

  • 이산형 Discrete : 특정 값, 그 사이 어떤 값도 가지지 않는 변수
    EX) 주사위 굴렸을 때 나오는 수

  • 연속형 Continuous : 무한한 수의 가능한 값이 있는 변수
    EX) 사람의 키

EDA 방법

1. 수치적 요약

  • 표준편차 : 자료들의 퍼져있는 정도 -> 변동폭 파악

  • 왜도 : 분포가 기울어진 정도
    평균값 - 중앙값

  • 첨도 : 최빈값 (평균값)의 급격한 증가의 정도
    빈도가 낮은경우 첨도 값이 작다.
    변량의 빈도가 높다 == 몰려있다 == 첨도가 높다.

  • 사분위수 : 1,3사분위수 사이 길이

2. 그래프에 의한 요약

  • 막대그래프 : 질적변수, 양적변수 중 이산형

  • 히스토그래프 : 양적변수 중 연속형

  • 밀도 분포 : 주로 확률에서 사용
    밀도 : 비율을 표현할 때 사용

    • 정규 분포 : 시행횟수가 커지면서 발생되는 분포함수 (이항분포에서)
  • Box Plot
    크기가 클 수록 값은 골고루 퍼져있다.
    작을 수록 첨도가 큰 데이터


bank <- read.csv("./data/bank.csv", sep=";",header = T)

#컬럼(속성명) 확인
names(bank)

#데이터 일부 보기
head(bank)

#데이터 사이즈 보기
dim(bank)
#일변량 탐색
#수치적 요약(이산형)
summary(bank$age)

#그래프적 요약(이산형)
boxplot(bank$age)

boxplot(bank$age)
ggplot(data = bank, aes(x="", y=age)) + geom_boxplot()

boxplot과 ggplot는 같지만 ggplot가 좀 더 세련되게 나옴.

#나이 범주화
bank$age_c = cut(bank$age, c(0,30,40,50,60,100))

#항목별 빈도수 세기기
table(bank$age_c)
ggplot(data=bank, aes(age_c)) + geom_bar()
#수치적 요약
table(bank$job)

#그래프적 요약
par(mar=c(8,3,1,1))
barplot(table(bank$job), las=2)
ggplot(data=bank, aes(job)) + geom_bar() + coord_flip() #corrd_flip이 가로형
profile
정리.velog

0개의 댓글