'통계 101x데이터분석' 책을 읽고 중요한 내용을 정리했습니다.
데이터 분석의 목적
: 대상의 요약이나 설명, 예측
알고자 하는 대상
: 대상의 규모가 '고혈압이 있는 모든 사람'인지, '3학년 1반 40명'뿐인지. 알고자 하는 대상이 전혀 다름.
모집단이란?
: 통계학에서 알고자 하는 대상 전체. 가령 한국인 성인 남성의 키를 알고 싶다면, 한국인 성인 남성 전원을 모집단으로 설정.
: 데이터를 분석할 때는, 데이터 분석 목적과 알고자 하는 대상에 기초하여 직접 모집단을 설정해야 한다.
: '지금 알고자 하는 대상은 무엇인지' 그리고 '무엇을 모집단으로 설정할 건인지'의 문제에 항상 주의를 기울여야 한다.
모집단의 크기
: 모집단에 포함된 요소(element)의 수
: 모집단은 그 크기에 따라 유한모집단과 무한모집단으로 나뉜다.
유한모집단
: 모집단 중 한정된 요소만 포함한 것
: 예를 들어 한국인을 모집단으로 삼을 수 있다. 2020년 기준 5,183만 명이라는 한정된 요소로 구성되기 때문에 유한모집단이 된다.
무한모집단
: 모집단 중 포함된 요소의 개수가 무한한 것
: 고혈압 신약효과에서 미래에 고혈압으로 약을 복용할 사람도 대상에 포함되기에 요소 개수에 제한이 없다고 생각할 수 있다.
: 포함된 요소 전부를 조사한다는 것은 원칙적으로 불가능한 일.
모집단의 성질
: 모집단이란? 데이터 분석에서 알고자 하는 대상 전체.
: 모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 된다.
전수조사
: 모집단의 성질을 아는 방법의 하나로 모집단에 포함된 모든 요소를 조사한다.
: 모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사방법.
: 분석할 데이터 = 모집단
: 획득한 데이터의 특징을 파악하고 기술하기만 해도 모집단의 성질을 설명하고 이해할 수 있다 -> 기술통계
표본조사
: 모집단의 일부를 분석하여 모집단 전체의 성질을 추정 -> 추론통계
: 표본이란? 추론통계에서 조사하는 모집단의 일부
: 표본추출이란? 모집단에서 표본을 뽑는 것
: 표본조사란? 표본을 이용해 모집단의 성질을 조사하는 것
표본크기(sample size)
: 표본크기란? 표본에 포함된 요소의 개수. 보통 알파벳 n으로 나타냄.
: 표본크지는 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 때문에 통계분석에서 중요한 요소다.
: cf) 샘플 수란? 표본의 개수. 20명 표본A와 30명 표본B가 있는 경우, 표본은 A, B 2개이므로 샘플 수는 2.