도표를 이용한 자료 정리

lakebear·2023년 3월 13일
0
post-thumbnail

질적자료 vs양적자료
자료의 구분: 수치 차이
더하고, 빼고, 곱하고, 나누는 사칙연산 가능 여부에 따라 자료를 질적 자료(Qualitative Data)와 양적 자료(Quantitative Data)로 나눌 수 있다.

질적자료 (=범주형 자료)
명목형 자료(Nominal Data)
-문자로 나타내어지는 자료
-범주간 순서가 없음
-예 : 혈액형, 직업의 종류(전문직, 회사원, 공무원 등), 성별

순서형 자료(Ordinal Data)
-문자로 나타내어지는 자료이나 범주들 간 순서가 있는 자료
-사칙 연산을 할 수 없음
-예 : 선호도, 학점

양적자료(=숫자형 자료)
이산자료

연속자료
-절대 영점이 있고 비율 계산이 가능한 자료
-예 : 체중, 키, 무게, 상품의 판매량

양적/질적 참고자료

⭐️자료배열이란?
무질서하게 수집한 자료를 작은 값에서 큰 값 순으로 또는 큰 값에서 작은 순으로 정돈하는 것을 의미

도수분포표란?
수집한 자료를 자료의 특성을 기준으로 일정한 계급(class)으로 나누고, 각 계급에 속하는 자료의 도수(frequency)를 대응하여 작성한 표를 도수분포표(frequncy distribution table)
1)도수(frequency) : 어떤 범주에 속하는 자료의 수
2) 도수분포표(frequency distribution table) : 범주별 도수를 정리한 표

도수분포표(Frequency Distribution)란?

  • 자료의 전체적인 구성 형태를 도수(=각 범주에 속하는 관측 값의 개수)로 표현
  • 빈도분포표(Frequency table)라고도 함
  • 수치형 자료와 범주형 자료 모두에 사용

범주형 자료(명목형 자료, 순서형 자료)

  • 값들을 그대로 사용하거나 그 종류가 많으면 비슷한 값들을 묶어 사용
  • ex) 어떤 부류의 동호인들이 동호인 마을을 이루고 있는지 10개 마을을 이루고 있는지 13개 마을을 조사
    : 음악, 미술, 미술, 역술, 영화, 음악, 영화, 영화, 음악, 음악
    동호인 마을 도수 상대도수(=도수/총도수)
    음악 4 0.4(=4/10)
    미술 2 0.2(=2/10)
    역술 1 0.1(=1/10)
    영화 3 0.3(=3/10)
    합계 10(→총도수) 1

숫자형 자료

  • 전체 범위를 몇 개의 계급(class)으로 나눔
    ex) 점수 50미만, 50이상 70미만, 70이상 90미만, 90이상
  • 각 계급에 속하는 자료의 수를 도수로 표현
  • 모든 계급 구간(Class Interal) 또는 계급 폭은 동일(처음과 끝 계급은 제외)

도수분포표 관련 용어

계급(Class)

  • 자료가 취하는 전체 범위를 몇 개의 소집단(범주, 구간)으로 나눈 것
  • 모든 계급의 계급구간(Class interval)/계급폭(Class width)는 동일(처음과 끝 계급은 예외)

계급값(Class mark)=평균값, 중간값

  • 계급을 나타내는 하나의 특징 값
    (계급의 양 끝값의 합)/2

도수/빈도(Frequency)

  • 각 계급에 속하는 자료 수

상대도수: 각 계급에 속한 도수의 비율
/N

누적 도수(Cumulative Frequency)

  • 아래 계급에서부터 차례로 도수를 누적 시키며 구함

누적 상대 도수(Cumulative Relative Frequency)

  • 아래 계급에서부터 차례로 상대도수를 누적시키며 구함
  • 누적도수를 자료의 전체 개수로 나눈 비율
  • 상대누적도수=계급누적도수/전체자료의수

bins array

계급수
1+log(도수,2)

계급간격
범위/계급수

지금까지 살펴본 도수, 상대도수, 누적도수, 누적상대도수의 관계를 정리하면 [표 1-3]과 같다.

이때 계급의 간격은 일정해야 하며, 각 계급 구간은 중복되지 않아야 한다. 계급을 읽을 때는 ai이상, ai+1미만과 같이 ‘이상’, ‘미만’을 붙인다

도수분포표참고

연습문제

엑셀 정리
최소값:min(범위)
최대값:max(범위)
범위=최대 - 최소
도수: n수 = count(범위)
도수:frequency(집합범위, 간격범위)
FREQUENCY(data_array, bins_array)
data_array : 빈도를 계산할 값 집합의 참조 또는 배열
bins_array : 값을 분류할 구간 값
계급수:1+log(도수,2)
계급간격:범위[최대-최소]/계급수
계급값:sum[계급시작+계급끝]/2

셀위치 고정
F4 =>$

profile
https://lakedata.tistory.com 블로그 이전

0개의 댓글