기초통계 002 - 데이터 개념

Jay Park·2021년 12월 26일
1

기초통계

목록 보기
2/4

▷ 데이터의 정의 및 유형

데이터의 정의

  • 관측을 통해 획득한 사실 - 논리의 기초가 되는 재료
  • 과학적 결론의 근거가 될 수 있는 모든 사실

데이터(자료)의 형태

  1. 키, 몸무게, 강우량, 소득, 홈페이지 방문자수, 자녀수, 자동차 보유 대수
  2. 성별, 출신국가, 혈액형
  3. 건강검진 설문 (ex. 구강상태 - 매우 양호, 양호, 보통, 불량, 매우 불량), 음식점 별점
  4. 날짜는 ?

1은 관측 가능한 모든 결과들이 수치로 표현되며 측정간격을 계속적으로 쪼갤 수 있는 연속형 자료와 방문자수와 같이 일정하게 유지되는 이산형 자료로 구분 가능하다.

2, 3은 관측값이 수치가 아닌 범주나 유형인 경우로 2는 범주간에 차이를 측정할 수 없으며, 3은 각 범주간의 많고 적음이나 크고 작음에 따른 순서를 구분할 수 있는 자료이다.
4번의 날짜 시간은 연속형 자료.

데이터의 유형

연속 데이터와 이산 데이터

  • 연속형 - Continuous
    • 연속적인 수치로 표현, 정량적 자료
  • 이산형(범주형) - Discrete, Categorical
    • 정성적 자료

질적 데이터와 양적 데이터

자료를 계산할 수 있는 것과 없는 것으로 분류

cf) 아래 구분이 더 자주 사용

범주형

  • 명목형
  • 순서형

수치형

  • 이산형 --> 빈도
  • 연속형 --> 분포
    • 구간형(등간형)
    • 비율형

데이터의 측정과 척도

  • 측정(measurement)- 사물의 속성을 구체화하기 위하여 수(數)를 부여하는 절차, 자료의 특성을 수치로 변환 (남성 --> O, 별점 --> 1 ~ 5 점)

    1. 측정하고자 하는 대상 선정
    2. 대상의 속성이나 행위를 구체화
    3. 측정단위를 설정하고 수를 부여하는 규칙 제정
  • 척도(scale) - 사물 또는 현상을 측정하기 위한 기준/단위. 측정과 평가의 기준
    명목척도, 서열척도, 등간척도, 비율척도, 절대척도

    • 명목(nominal)척도 - 사물을 구별하기 위해 이름을 부여하는 척도. ex) 인종, 성별

    • 서열(oridnal)척도 - 사물의 속성을 상대적 서열에 의하여 표시하기 위한 척도. ex) 성적(등수), 설문

      • 비교연산은 적용 가능하지만, 사칙연산은 적용 불가
      • 서열자료를 구간/비율척도로 측정한 양적자료로 간주하여 평균을 구해 활용하기도 하지만, 이 경우 값의 해석에 유의해야 함.
    • 등간(interval)척도 - 영점을 가상으로 설정하고 가상적 단위의 특성을 지닌 척도. ex) 온도 10℃ ~ 20℃ 간격의 차이는 20℃ ~ 30℃ 차이와 동일, 학업 점수

    • 비율(ratio)척도 - 절대영점과 가상적 단위를 지닌 척도.
      ex) 길이 - 0cm는 아무것도 없는 절대 영점이며 1cm는 서로 협약한 단위

    • 절대(absolute)척도 - 절대 영점과 절대 단위.
      ex) 사람 수 - 사람 1명은 협의가 필요없는 모두가 동의하는 절대 단위.

      등간척도비율척도절대척도
      영점가상영점절대영점절대영점
      단위가상단위가상단위절대단위

변수 (Variable)

  • 통계학에서 변수척도(scale)에 대해서 측정(measurement) 하려고 하는 속성(attribute)

    • 관측 대상이 가지는 속성 혹은 특성 그 자체
    • 변수에 측정 값을 부여하면 자료(데이터)
  • 변량(Variate)

    변수(Variable)가 표본으로부터 수집한 자료 그대로를 나타내는 반면에 변량(Variate)은 이러한 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수를 말한다.

    • multivariate analysis (다변량 분석)

    cf) measurement와 metric의 관계와 유사

  • 변량 (Variation)

    ① 변수(Variable)는 연구자가 관찰을 통해 수집한 자료를 의미
    : 정해진 범위 내에서 변할 수 있는 값을 대표하는 문자
    ② 연구 대상인 변수의 관찰값들간 차이가 변량 (Variation)

    ① 변량 變量 : 주어진 조건에 따라 변화하는 양.
    ② 변량 變量 : 통계에서, 조사 내용의 특성을 수량으로 나타낸 것. 신장이나 체중 따위처럼 구간 내 값을 연속적으로 취할 수 있는 연속 변량과, 득점처럼 분리된 값만 취하는 이산 변량이 있다.
    (출처 - https://wordrow.kr/의미/변량/)

    변량이란 조사 대상의 특징이나 성질을 숫자나 문자로 나타낸 것
    (출처 - 그림으로 설명하는 개념 쏙쏙 통계학)

    집단의 원소 의 의미로도 사용 (@손으로 푸는 통계)

profile
Jaytiger

0개의 댓글