R

m_ngyeong·2025년 3월 27일
0

Database(DB)

목록 보기
5/7
post-thumbnail

R


R통계 분석과 데이터 시각화를 위한 프로그래밍 언어이자 소프트웨어 환경이다. 주로 데이터 과학, 머신러닝, 생물 정보학, 경제학 등의 분야에서 널리 사용되고 있다.

R은 1960년대와 1970년대 Bell 연구소에서 개발된 S라는 데이터 처리 언어에 기반을 두고 있다. 1990년대 중반 뉴질랜드 오클랜드 대학의 로스 이하카와 로버트 젠틀맨에 의해 시작되어 현재는 R의 핵심 기능은 R 코어 팀이, 다양한 추가 기능은 자발적 기여자들에 의해 개발되고 있다. R은 GPL 하에 배포되는 공개 소프트웨어로 누구나 자유롭게 이용할 수 있다.

R은 빅데이터 분석에 널리 사용되고 있으며, 패키지 개발이 용이하여 통계 분석가들 사이에서 통계 소프트웨어 개발에 많이 쓰이고 있다.

Install

R 설치:

  1. https://www.r-project.org/
  2. [Download] CRAN 클릭.
    (CRAN은 Comprehensive R Archive Network의 약어)
  3. 각 국마다 미러링사이트가 있으므로 [KOREA] 클릭.
  4. 해당하는 OS에 맞춰 설치.

R Studio 설치:

https://posit.co/download/rstudio-desktop/

Manual:

https://wikidocs.net/6141

R의 특징:

  • 강력한 데이터 분석 기능:
    • 다양한 통계 및 기계 학습 기법을 지원 (회귀 분석, 분류, 군집 분석 등)
    • 데이터 처리 및 변환을 위한 dplyr, tidyr 등의 패키지 제공
  • 뛰어난 데이터 시각화
    • ggplot2 패키지를 이용한 고품질 그래프 생성
    • 대시보드 제작 (shiny 패키지 활용)
  • 오픈소스 및 커뮤니티 지원
    • 무료로 사용 가능하며, 다양한 패키지와 자료 제공
    • 전 세계적인 사용자 커뮤니티와 포럼 활성화
  • 다양한 확장성
    • Rcpp를 통해 C++과 연동 가능
    • Python (reticulate 패키지), SQL 등과 함께 사용 가능

Start R


Create R Script or Use Concole.

  • 주석: #
  • 실행: Command + A ➡️ Command + Enter

변수 할당 및 데이터 프레임 생성

# 변수 할당
x <- 10
y <- 20
z <- x + y  # [1] 30 출력

# 데이터 프레임 생성
df <- data.frame(
  name = c("A", "B", "C"),
  score = c(90, 85, 88)
)

# ggplot2를 이용한 그래프 그리기
library(ggplot2)
ggplot(df, aes(x = name, y = score)) + geom_bar(stat = "identity")

도표 생성

nums<-rnorm(10)
hist(nums)

rnorm(n)

rnorm(n)는 정규분포를 따르는 숫자 중 랜덤하게 n개의 숫자를 추출한다.

plot()

R에서 가장 흔히 사용되는 함수로 분포도나 꺽은선 그래프 등을 그릴 수 있다.

기본 문법

plot(y축 데이터, 옵션)
plot(x축 데이터, y축 데이터, 옵션)

방식

R에서 대부분 데카르트 방식을 이용한다.

데카르트 방식 : plot(x,y)
수식기반 방식 : plot(y~x)

기본 그래프

> var1 <- c(1,2,3,4,5)
> plot(var1)


참고,
https://kilhwan.github.io/rprogramming/ch-intro.html
R 그래프 표현 plot() 함수|작성자 1stwook

profile
ʚȉɞ

0개의 댓글