[통계노트] 2. 기술통계와 그래프

성준혁·2023년 2월 19일
0
post-thumbnail

1. 기술통계 분석과 그래프

기술통계값

  • 중심경향값
    : 데이터를 대표하는 값 중에 '분포의 중심'을 나타내는 값.
  • 산포도
    : 데이터를 대표하는 값 중에 '분포의 퍼진 정도'를 나타내는 값.

    Q1. outlier에 가장 민감한 중심경향값은?

분포와 그래프

  • 정규분포
    : 단봉 + 좌우대칭인 분포
  • 편포
    : 한쪽으로 치우친(skewed) 분표 ⭐'꼬리가 길어진 방향'을 기준으로 생각하자
  • 왜도와 첨도
  • 박스플롯
    : 여러 변수 (중앙값, IQR, 편포 여부 등) 를 동시에 파악하기 용이한 그래프

    Q2. 평균, 중앙값, 최빈값의 대소관계 경향을 각 편포에서 부등호로 나열하시오
    Q3. 왜도와 첨도는 각각 절댓값이 얼마 이상이면 심각한 것으로 간주하는가?

2. 질적변수 기술통계 분석과 그래프

  • 비서열 질적변수는 많은 정보를 주지 못 함. (빈도랑 막대그래프 정도밖에...)
  • 서열 질적변수는 재코딩을 통해 마치 "양적변수인 것처럼" 간주하면, 더 많은 정보를 분석할 수 있게 됨!

    Q4. 'NA', '%valid', '%total'는 각각 무엇을 의미하는가?

3. 양적변수 기술통계 분석과 그래프

  • 히스토그램박스플롯뿐만 아니라, 빈도분포표도 그려보면 더 많은 정보 알 수 있음.

항상 수치와 그래프를 함께 보면서 전체 데이터의 구조를 파악하는 습관이 중요합니다!

  • 추리통계 시에는 양적변수가 기본적으로 정규분포를 따른다는 가정을 두고 보기 때문에, 그에 맞게 (= 좌우대칭 되게끔) 재코딩하는 경우 多

    Q5. 기술통계표에서 skew는 무엇을 보여주는 값인가?

💯퀴즈 정답💯

A1. 평균

A2.
부적편포 : 평균 < 중앙값 < 최빈값
정적편포 : 최빈값 < 중앙값 < 평균

A3. 2 / 7

A4. 결측값 / 결측값 제외하고 계산한 수치 / 결측값 포함하여 계산한 수치

A5. 왜도




ⓒ 2023. SeongJunhyeok All rights reserved.
profile
생각은 그만

0개의 댓글