: 데이터를 분석하는 분석자의 가설을 정형화하고 세분화하는 것을 돕기 위함.
: 가설들을 증명해가는 방법
초기 분석점을 찾아 주는 SCREENED XS 와 같음.
: 데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법
-> 탐색만으로 얻는 방법
분석의 첫 단계
데이터 마이닝도 EDA에 속한다.
John advocated the practice of exploratory data analysis as a critical part of the scientific process
: 변수가 하나로 구성된 자료
단 하나의 스칼라(하나의 수치만으로 표시되는 양) 성분으로 이뤄진 경우
: 변수가 2개 이상으로 구성된 자료
한 자료가 다른 자료에 영향을 주거나 다른 자료에 의해 결정되는 구조
: 자료의 값이 아닌 나타내는 의미로 이뤄진 변수
이진형 : 두 가지 가능한 결과만 가지는 변수
EX) 동전
명목형 : 두 개 이상의 범주를 가지지만 그 사이에는 순서나 계급이 없는 변수
EX) 혈액형
순위형 : 두 개 이상의 범주를 가지며 그 사이에 순서나 계급이 있는 변수
EX) 학력
: 측정 대상의 값 자체를 사용하는 변수
이산형 Discrete : 특정 값, 그 사이 어떤 값도 가지지 않는 변수
EX) 주사위 굴렸을 때 나오는 수
연속형 Continuous : 무한한 수의 가능한 값이 있는 변수
EX) 사람의 키
표준편차 : 자료들의 퍼져있는 정도 -> 변동폭 파악
왜도 : 분포가 기울어진 정도
평균값 - 중앙값
첨도 : 최빈값 (평균값)의 급격한 증가의 정도
빈도가 낮은경우 첨도 값이 작다.
변량의 빈도가 높다 == 몰려있다 == 첨도가 높다.
사분위수 : 1,3사분위수 사이 길이
막대그래프 : 질적변수, 양적변수 중 이산형
히스토그래프 : 양적변수 중 연속형
밀도 분포 : 주로 확률에서 사용
밀도 : 비율을 표현할 때 사용
Box Plot
크기가 클 수록 값은 골고루 퍼져있다.
작을 수록 첨도가 큰 데이터
bank <- read.csv("./data/bank.csv", sep=";",header = T)
#컬럼(속성명) 확인
names(bank)
#데이터 일부 보기
head(bank)
#데이터 사이즈 보기
dim(bank)
#일변량 탐색
#수치적 요약(이산형)
summary(bank$age)
#그래프적 요약(이산형)
boxplot(bank$age)
boxplot(bank$age)
ggplot(data = bank, aes(x="", y=age)) + geom_boxplot()
boxplot과 ggplot는 같지만 ggplot가 좀 더 세련되게 나옴.
#나이 범주화
bank$age_c = cut(bank$age, c(0,30,40,50,60,100))
#항목별 빈도수 세기기
table(bank$age_c)
ggplot(data=bank, aes(age_c)) + geom_bar()
#수치적 요약
table(bank$job)
#그래프적 요약
par(mar=c(8,3,1,1))
barplot(table(bank$job), las=2)
ggplot(data=bank, aes(job)) + geom_bar() + coord_flip() #corrd_flip이 가로형