TIL . R day01

hyuko·2022년 11월 5일
0

R Study

목록 보기
1/4

데이터 생김새

  • 데이터는 행과 열로 이루어진 데이터 세트가 주를 이룬다.
  • 각 행의 이름은 데이터의 관측치
  • 각 열의 이름은 변수
  • 행과 열에 들어가는 데이터는 값이다.
  • 데이터 세트를 테이블이라고도 한다.

데이터 구조간 관계 및 데이터 유형

  1. 벡터
    • 한 가지 데이터 유형으로 구성된 1차원 구조의 데이터
  2. 행렬
    • 한 가지 데이터 유형으로 구성된 2차원 구조의 데이터
  3. 배열
    • 행렬을 n차원으로 확대한 구조의 데이터
  4. 리스트
    • 숫자형 벡터, 문자형 벡터 등 여러 데이터 유형이 포함된 1차원 구조의 데이터
  5. 데이터 프레임
    • 리스트를 2차원으로 확대한 구조의 데이터

데이터를 이해하기 위해서는 데이터 유형도 알아야 한다.

데이터 유형으로는...

  • 숫자형: 숫자로만 이루어진 데이터

  • 문자형: 문자로만 이루어진 데이터

  • 논리형: TRUE or FALSE로 이루어진 데이터

1차원2차원n차원
단일형벡터행렬배열
다중형리스트데이터프레임

벡터

  • 벡터는 데이터 구조의 가장 기본형태

  • 할당 연산자인 \<- 와 c () 함수를 이용해서 선언한다

    변수명 \<- c (값)

  • mode( ) 함수는 데이터 유형을 확인하는 함수

  • str( ) 함수는 데이터의 유형과 값을 전체적으로 확인가능

  • length( )함수는 데이터의 길이를 확인하는 함수

num : 숫자형

int: 정수형

double: 실수형

char: 문자형

logi: 논리형

범주형 자료

  • 과일, 나라명, 도서명, 저자명, 월 등 명목형 자료를 바탕으로 범주화한 데이터

    종류를 나타내는 데이터 상반된 개념은 수치형 자료

  • factor ( )함수로 사용해서 생성

    factor(범주화할 자료, labels = c ("범주1", "범주2"))

    범주화 자료에는 범주로 구성할 데이터 값인 벡터를 입력하고

    labels 옵션으로 각 범주에 순서대로 입력!

행렬과 배열

행렬은 행과 열로 구성된 2차원 단일형 데이터이며, 배열은 행렬을 n차원으로 확대한 구조의 단일형 데이터

  • 행렬

    • 행렬은 matrix ( )함수를 사용

      matrix("변수값들", nrow = 행의수, ncol= 열의수

  • 배열

    • 배열은 array( ) 함수를 사용

      array("변수값들", dim = c(행수,열수,차원수))

리스트와 데이터 프레임

  • 리스트: 1차원 데이터인 벡터나 서로 다른 구조의 데이터를 그룹으로 묶은 데이터 세트

    list1 \<- list(c(1, 2, 3), "Hello") 선언 방식

  • 데이터 프레임: 실제 업무에서 가장 많이 사용하는 데이터 세트

    다중형 데이터 세트 이다.

    데이터 프레임은 각 열에 변수명이 있어야 한다. 엑셀과 구조가 매우 흡사하다.

    • 행: 데이터 세트의 가로 영역이고 데이터의 관측치다.

    • 열: 데이터 세트의 세로 영역이고 변수라고 부른다

    • 데이터 값: 관측된 값이다.

      data.frame(변수명1, 변수명2, .... 변수명n)

요약.

  • 데이터 세트: 행과 열로 이루어진 테이블 형태의 집합

  • 벡터: 1차원 데이터로 구성된 단일형 데이터

  • 행렬: 행과 열로 구성된 2차원 단일형 데이터

  • 리스트: 1차원 데이터인 벡터나 서로 다른 구조의 데이터를 그룹으로 묶은 다중형 데이터세트

  • 데이터 프레임: 리스트를 2차원으로 확대한 것으로 숫자형 벡터, 문자형 벡터 등 서로다른 데이터의 세트

데이터 파악하기

함수기능
head()데이터의 앞 부분 확인
tail()데이터의 뒷 부분 확인
View()뷰어 창에서 데이터 확인하기
dim()데이터가 몇 행, 몇 열로 구성되어 있는지 확인하기
str()속성 파악
summary()요약 통계량(최솟값, 1/4의수, 중앙값, 평균, 3/4의수, 최댓값
Min, 1st Qu, Median, Mean, 3rd Qu, Max

데이터 전처리

dplyr함수기능
filter()행 추출
select()열 추출
arrange()정렬
mutate()변수추가
summrise()통계치 산출
group_by()집단별로 나누기기
profile
백엔드 개발자 준비중

0개의 댓글