1. 기술통계 분석과 그래프
기술통계값
- 중심경향값
: 데이터를 대표하는 값 중에 '분포의 중심'을 나타내는 값.

- 산포도
: 데이터를 대표하는 값 중에 '분포의 퍼진 정도'를 나타내는 값.

Q1. outlier에 가장 민감한 중심경향값은?
분포와 그래프
- 정규분포
: 단봉 + 좌우대칭인 분포
- 편포
: 한쪽으로 치우친(skewed) 분표 ⭐'꼬리가 길어진 방향'을 기준으로 생각하자

- 왜도와 첨도

- 박스플롯
: 여러 변수 (중앙값, IQR, 편포 여부 등) 를 동시에 파악하기 용이한 그래프

Q2. 평균, 중앙값, 최빈값의 대소관계 경향을 각 편포에서 부등호로 나열하시오
Q3. 왜도와 첨도는 각각 절댓값이 얼마 이상이면 심각한 것으로 간주하는가?
2. 질적변수 기술통계 분석과 그래프
- 비서열 질적변수는 많은 정보를 주지 못 함. (빈도랑 막대그래프 정도밖에...)

- 서열 질적변수는 재코딩을 통해 마치 "양적변수인 것처럼" 간주하면, 더 많은 정보를 분석할 수 있게 됨!

Q4. 'NA', '%valid', '%total'는 각각 무엇을 의미하는가?
3. 양적변수 기술통계 분석과 그래프
- 히스토그램과 박스플롯뿐만 아니라, 빈도분포표도 그려보면 더 많은 정보 알 수 있음.

항상 수치와 그래프를 함께 보면서 전체 데이터의 구조를 파악하는 습관이 중요합니다!
- 추리통계 시에는 양적변수가 기본적으로 정규분포를 따른다는 가정을 두고 보기 때문에, 그에 맞게 (= 좌우대칭 되게끔) 재코딩하는 경우 多

Q5. 기술통계표에서 skew는 무엇을 보여주는 값인가?
💯퀴즈 정답💯
A1. 평균
A2.
부적편포 : 평균 < 중앙값 < 최빈값
정적편포 : 최빈값 < 중앙값 < 평균
A3. 2 / 7
A4. 결측값 / 결측값 제외하고 계산한 수치 / 결측값 포함하여 계산한 수치
A5. 왜도
ⓒ 2023. SeongJunhyeok All rights reserved.