R Studio 사용하기 - 변수

yejubi1531·2022년 7월 4일
0

R 기본 사용법

변수 할당

a <- 4
b <- 1
c = a+b

factor( )는 범주형 변수를 표현하기 위해 사용

gender <- factor("f",c("m","f"))

factor( )에 할당된 인자인 'f'는 'gender'라는 변수에 저장되는 값
변수형 변수는 c("m","f")와 같이 'm','f' 2개 사용 가능하며, 'c( )' 표현은 벡터

데이터는 크게 2개로 구분된다.
(1) 명목형 또는 순서형의 범주형 데이터
(2) 연속형 데이터

R에서는 범주형 데이터를 요인(factor)형 데이터 구조라고 부르고 있으며,
순서(order)가 있는 경우는 순서형 요인(ordered factor)라고 해서 구분

통계기법 중 도수분포표, 교차분할표, 카이제곱 검정, 로지스틱회귀분석, 그래프 중 막대그림, 원 그림, 점 그림 등의 경우 범주형 변수로 변환을 해야만 함

데이터 탐색시 범주형 변수로 변환하여 분포 형태나 집단 간 비교를 해야 함

연속형 변수를 범주형 변수로 변환하기: cut( ), ifelse( ), within( )

  • 값이 순서가 있는 경우라면 순서형 변수로 만들기 위해서는 "ordered( )"라는 명령어를 사용
  • "factor( )"를 호출할 때에는 반드시 "ordered = TRUE"라고 지정해줘야 함

R에서는 가장 기본적인 데이터셋의 형태를 벡터라고 하며, 벡터는 하나 이상의 문자, 숫자 등의 집합

일반적으로 R에서는 모든 것이 벡터라고 간주

character(문자), numeric(실수), inerger(정수), logical(논리) 등의 타입을 가지며 한 벡터 내의 타입은 항상 같아야 함
벡터를 만드는 가장 간단한 방법은 함수 c( )를 사용

벡터는 중첩되어 사용할 수 없다

벡터 안에 벡터를 사용하게 되면, 단일 차원의 벡터로 변경
중첩된 구조가 필요하다면 리스트(list)를 사용

seq_along()은 인자로 주어진 데이터의 길이만틈 1,2,3,...,N까지 벡터를 반환할 때 사용

seq_len()은 N값이 인자로 주어지면 1,2,3,...,N까지 구성된 벡터를 반환할 때 사용

벡터를 만들기 위해서는 c( ) 또는 vector( ) 등의 함수를 사용하면 됨

  • c( )는 'concatenate'함수로서 여러 가지 벡터를 붙여줄 때 사용
  • vertor( )는 명시적으로 벡터 오브젝트를 만들게 되며, type의 지정이 가능
    또한 '[ ]' 안에 인덱스를 적고 필요한 각 요소를 가져옴

시작값:끝 값 (start:end) 형태를 사용

벡터의 길이를 알고자 한다면 'length( )' 함수, 'NROW( )'함수를 사용


벡터는 한 가지의 타입만을 가질 수 있으며, 만약 다른 타입의 'element'를 c( ) 벡터로 만들려고 한다면, 자동변환이 발생 (하나의 타입으로모두 바뀜)

R에 의해 강제적으로 변환되는 것이므로 강제 변환

'%in%' 연산자는 벡터에 포함되어 값이 무엇인지를 알려줌
두 집합을 비교할 경우 setequal( ) 함수를 사용

함수 c( ) 이외에도

  • 연속된 값을 생성하는 함수인 seq( )
  • 일정한 패턴들을 반복 사용하여 벡터를 생성하는 함수 rep( )

모드

R의 모든 객체에는 어떻게 메모리에 저장되어있는지를 가리키는 모드(mode)가 있으며, 모드의 종류에는 숫자형, 문자형, 리스트, 함수 등이 있음

(1) 숫자형(Numeric) : 수치 값을 나타냄, integer와 double 포함
-> c( ), numeric( ), factor( ), ordered( )
(2) 논리형(logical): TRUE와 FALSE이 논리 값을 나타냄
-> logical( )
(3) 문자형(character): 문자와 문자열을 나타냄
-> character( )
(4) 복소수형(complex): 실수와 허수로 구성된 복소수를 나타냄
-> a + bi

profile
노력하는 중

0개의 댓글