그래프를 이용한 자료정리
도수분포표(Frequency table)
수치자료에 대한 도수분포표
- 자료의 값이 몇 개로 한정된 경우에는 값을 범주로 처리
- 자료를 범주화하고 도수분포표를 작성 => 순서자료 형태로 변함
범주화
- 계급 (class)의 수와 경계값 (크기) 결정
계급의 수 결정
- 제곱근 방법, Struges 공식, Rice 공식 등
- 자료의 특성을 고려해 분석자가 결정
계급 경계: 간격 (크기)과 시작점과 끝점 지정
- 기본적으로 동일 간격
- 자료의 구조와 설명을 고려해 선택
점도표 (dot plot)
각 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 위로 누적
히스토그램 (Histogram)
수치자료 특히 연속자료의 분포형태를 표시
히스토그램 vs 막대그래프
-
계급의 상대도수를 사각형의 면적으로 표시
=> 전체 면적 = 1
-
높이 = 상대도수/계급구간길이 = 밀도 (density)
-
밀도 추정 (density estimation)
줄기-잎 그림 (stem-and-lead plot)
관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그림
- 줄기-잎 그림 그리기
(1) 자료를 순서대로 정렬
(2) 줄기에는 기본단위의 10배의 값을 표시
(3) 잎에는 관측값의 기본단위에 해당되는 값을 표시
(4) 자료가 많은 경우 줄기를 5단위 (0~4, 5~9)
상자그림 (Box plot) => 수치자료 분포의 산포
# 실습
R을 이용한 자료 정리
파이판매량 자료
- 파일에 저장된 자료 불러오기
- 도수분포표 작성
- 원도표, 막대그래프 그리기
취업률 자료
- 자료 읽기
- 도수분포표 작성
- 히스토그램, 줄기- 잎 그림 그리기
과제