데이터를 이해하기 위해서는 데이터 유형도 알아야 한다.
데이터 유형으로는...
숫자형: 숫자로만 이루어진 데이터
문자형: 문자로만 이루어진 데이터
논리형: TRUE or FALSE로 이루어진 데이터
1차원 | 2차원 | n차원 | |
---|---|---|---|
단일형 | 벡터 | 행렬 | 배열 |
다중형 | 리스트 | 데이터프레임 |
벡터는 데이터 구조의 가장 기본형태
할당 연산자인 \<- 와 c () 함수를 이용해서 선언한다
변수명 \<- c (값)
mode( ) 함수는 데이터 유형을 확인하는 함수
str( ) 함수는 데이터의 유형과 값을 전체적으로 확인가능
length( )함수는 데이터의 길이를 확인하는 함수
num : 숫자형
int: 정수형
double: 실수형
char: 문자형
logi: 논리형
과일, 나라명, 도서명, 저자명, 월 등 명목형 자료를 바탕으로 범주화한 데이터
종류를 나타내는 데이터 상반된 개념은 수치형 자료
factor ( )함수로 사용해서 생성
factor(범주화할 자료, labels = c ("범주1", "범주2"))
범주화 자료에는 범주로 구성할 데이터 값인 벡터를 입력하고
labels 옵션으로 각 범주에 순서대로 입력!
행렬
행렬은 matrix ( )함수를 사용
matrix("변수값들", nrow = 행의수, ncol= 열의수
배열
배열은 array( ) 함수를 사용
array("변수값들", dim = c(행수,열수,차원수))
리스트: 1차원 데이터인 벡터나 서로 다른 구조의 데이터를 그룹으로 묶은 데이터 세트
list1 \<- list(c(1, 2, 3), "Hello") 선언 방식
데이터 프레임: 실제 업무에서 가장 많이 사용하는 데이터 세트
다중형 데이터 세트 이다.
데이터 프레임은 각 열에 변수명이 있어야 한다. 엑셀과 구조가 매우 흡사하다.
행: 데이터 세트의 가로 영역이고 데이터의 관측치다.
열: 데이터 세트의 세로 영역이고 변수라고 부른다
데이터 값: 관측된 값이다.
data.frame(변수명1, 변수명2, .... 변수명n)
데이터 세트: 행과 열로 이루어진 테이블 형태의 집합
벡터: 1차원 데이터로 구성된 단일형 데이터
행렬: 행과 열로 구성된 2차원 단일형 데이터
리스트: 1차원 데이터인 벡터나 서로 다른 구조의 데이터를 그룹으로 묶은 다중형 데이터세트
데이터 프레임: 리스트를 2차원으로 확대한 것으로 숫자형 벡터, 문자형 벡터 등 서로다른 데이터의 세트
함수 | 기능 |
---|---|
head() | 데이터의 앞 부분 확인 |
tail() | 데이터의 뒷 부분 확인 |
View() | 뷰어 창에서 데이터 확인하기 |
dim() | 데이터가 몇 행, 몇 열로 구성되어 있는지 확인하기 |
str() | 속성 파악 |
summary() | 요약 통계량(최솟값, 1/4의수, 중앙값, 평균, 3/4의수, 최댓값 Min, 1st Qu, Median, Mean, 3rd Qu, Max |
dplyr함수 | 기능 |
---|---|
filter() | 행 추출 |
select() | 열 추출 |
arrange() | 정렬 |
mutate() | 변수추가 |
summrise() | 통계치 산출 |
group_by() | 집단별로 나누기기 |