[통계노트] 3. R 프로그램 실습(1)

성준혁·2023년 2월 20일
0
post-thumbnail

1. R 소개

  • SPSS, Jamovi, SAS, STATA 등 다양한 통계분석 프로그램이 있지만 ...

  • R의 여러 장점 때문에 많이 사용하는 추세

    • 무료 오픈소스
    • 여러 통계기법이 패키지로 개발되어 있음
    • 우수한 시각화 기능
  • R Studio 사용 시 유의사항
    ※ PC 사용자 계정은 반드시 영문으로 설정하자 (경로 오류 방지)
    '관리자 권한으로 실행'하는 습관을 들이자

2. 자료 입력 및 변환

데이터 준비

  • setwd(“ ”) : working directory 설정
    getwd() : 현재 working directory 확인 "R 켜면 습관처럼 이것부터!"
  • <- c( ) : 특정 변수에 개별 값 입력하기 (c로 묶어줌)
    rep(n,k) : n을 k번 반복
    data.frame() : 변수 여러 개를 묶어서 하나의 데이터프레임 객체로 설정
  • read.csv() : 기존 자료 불러오기 (R에서는 csv 형태를 선호함)
  • write.csv() : 만든 자료 내보내기(저장하기)
  • str(), head(), tail()로 데이터 살펴보기
  • as.factor() : 범주형 변수로 설정 / levels() : 변수의 수준

결측값 설정

  • ifelse(A, B, C) : A라는 조건에 대해, 맞으면 B, 틀리면 C로 실행
    replace(A, B, C) : A 데이터가, B라는 조건에 맞으면, C로 실행

코딩 변경

  • (새 코딩값)[match (기존 코딩값)] : 변수가 가진 값을 직접 변경할 수 있음
  • rowMeans() : 여러 변수의 평균값으로 새 변수를 생성할 수도 있음
    na.rm=T : 하나라도 NA 있으면 평균도 NA로 나오도록 하는 설정

데이터 인덱싱

  • data[2] data[,2] : 자료의 2번째 을 뽑아줘
    data[3,] : 자료의 3번째 을 뽑아줘
    data[2,3] : 자료의 3 2 값을 뽑아줘
  • data[원하는 조건,] : 조건에 해당하는 관측치 (※ 관측치니까 콤마 필수)

(실습과제 추가)

3. 기술통계와 그래프

빈도 분석

  • table() : 원하는 변수의 빈도(분포표)를 보여줘
    prop.table() : 원하는 변수의 빈도를 표본비율로 보여줘
  • summarytools : 더 자세한 기술통계 기능이 있는 패키지
    freq() : 결측값 개수, 유효(valid)비율, 총(total)비율, 누적(cum.)비율까지 알려줌

기술통계값

  • mean() : 평균 / sd() : 표준편차 / na.rm=T : 결측치 제외하고 계산하는 설정
  • summary() : min, max, median, mean, Q1, Q3, NA 보여줌
  • psych : 더 자세한 기술통계량 측정이 가능한 패키지
    describe() : 왜도, 첨도 등 13종류(기본값)의 다양한 기술통계값을 보여줌

    🆚결측치 처리 방식🆚
    na.rm=T : 각 변수별로 결측치 제외 후 기술통계량 제시
    na.rm=F : 하나의 변수에라도 결측치 있는 사례 제외 후 기술통계량 제시

그래프

  • barplot() : 막대그래프 생성 (⭐table을 전달해야 함!! 얘만 그럼!!)
    xlim(), ylim() : x축, y축의 범위를 원하는 대로 설정할 수 있음.
  • hist() : 히스토그램 생성
    breaks : 막대 개수 설정 / xlab, ylab : x축, y축 라벨 설정 / main : 전체 라벨 설정
  • boxplot() : 박스플롯 생성
    ~ : 다른 변수에 따라 집단 나눠서 볼 수도 있음 / col : 박스 색깔 설정

💯실습 과제💯

*출처 : 서울대학교 Kmooc, <교육연구와 통계방법>.




ⓒ 2023. SeongJunhyeok All rights reserved.
profile
생각은 그만

0개의 댓글