평균, 분산 등의 추정값은 한 번에 하나의 변수를 다룸 (일변량분석)
상관분석은 두 변수를 비교 (이변량분석)
셋 이상의 변수를 다루는 방법
이변량, 다변량분석 형태는 데이터가 수치인지 범주형인지에 따라 달라짐
산점도는 데이터가 많을 경우 점들이 너무 밀집되어 알아보기 어려움
육각형 구간은 점으로 표시하는 대신 육각형 모양의 구간들로 나누고 각 구간에 포함된 기록값의 수에 따라 색을 표시
등고선 위으 점들은 밀도가 같으며 꼭대기로 갈수록 밀도는 높아짐
범주별 빈도수를 기록한 분할표
범주에 따라 분류된 수치형 변수 분포
상자수염그림
바이올린 도표
상자그림을 보완한 형태, y축을 따라 밀도추정 결과를 동시에 시각화
데이터의 질과 적합성을 일정 수준 이상으로 담보할 수 없으면서 데이터 크기만 늘어나는 상황
다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위해 표본추출의 필요성이 커짐
모집단에서 샘플을 추출하는 과정
표본은 큰 데이터 집합으로부터 얻은 부분집합
랜덤표본추출
모집단 내의 선택 가능한 원소들을 무작위로 추출하는 과정
모든 원소는 동일한 확률로 뽑히게 됨
결과로 얻은 샘플을 단순랜덤표본이라고 함
복원추출, 비복원추출 할 수 있음
샘플 기반 추정, 모델링에서 데이터 품질이 중요함
완결성, 일관성, 정확성, 대표성 등
표본편향 (비임의 방식의 추출)
측정 과정 혹은 표본추출 과정에서 발생하는 계통적인 오차
랜덤표본추출로 인한 오류와 편향에 따른 오류 구분 필요
나은 랜덤표본추출을 위해서 접근 가능한 모집단의 적절한 정의 중요
명확한 타겟 정의
층화표본추출
모집단을 여러 층으로 나누고 각 층에서 무작위 샘플 추출
빅데이터가 가치 있을 것이다는 일반적인 예상은 데이터가 크고 희박할 때
이 경우에는 랜덤표본추출은 도움이 되지 않을 수 있음
모집단의 표본평균과 모평균은의 구분
표본에 대한 정보는 관찰에 통해 얻어지고 모집단에 대한 정보는 주로 작은 표본들로부터 추론
데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행
홀드아웃 세트, 목푯값 섞기(순열검정)
주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상
예외적인 경우가 관찰되면 그 다음에는 중간 정도의 경우가 관찰되는 경향
예외 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있음
표본분포란 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포를 나타냄
표본을 통해 추정이나 모델을 하기 때문에 오류가 있을 수 있음
(다른 표본을 뽑았다면 다른 결과가 나올 수 있음)
따라서 표본에 따라 결과가 얼마나 달라질 지에 관심이 있음
많은 양의 데이터를 가지고 있다면 추가로 표본을 얻어 통계의 분포를 직접 관찰할 수 있음
하지만 최대한 많은 데이터를 사용하여 추정치 혹은 모델을 계산했을 것이므로 모집단에서 추가 표본을 얻는 옵션은 쉽게 이용하기 어려움
평균과 같은 표본통계량의 분포는 데이터 자체의 분포보다 규칙적이고 종 모양일 가능성이 높음
표본이 클수록 표본통계량의 분포가 좁아짐
모집단이 정규분포가 아니더라도 표본크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우 여러 표본에서 추출한 평균은 종 모양의 정규곡선을 따름
가설검정과 신뢰구간에 대한 밑바탕이 됨
통계에 대한 표본분포의 변동성을 나타내는 단일 측정 지표
표본 값들의 표준편차를 표본크기의 제곱근 값으로 나눔
표본 크기가 커지면 표준오차가 줄어듬
통계량, 모델 파라미터(모수)의 표본분포를 추정하는 쉽고 효과적인 방법은 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것
데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않음
표본을 수천, 수백만 번 복제하는 것이라 생각할 수 있음
이를 통해 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상 모집단을 얻게 됨
가상 모집단으로부터 표본분포를 추정할 목적으로 표본을 수집할 수 있음
재표본추출은 일반적으로 여러 표본이 결합되어 비복원추출을 수행
부트스트랩은 항상 관측된 데이터로부터 복원추출 의미
도수분포표, 히스토그램, 상자그림, 표준오차 모두 표본추정에서 잠재적인 오차를 이해하는 방법
신뢰구간은 같은 모집단으로부터 같은 방식으로 얻은 관심 통계량을 포함할 것으로 예상하는 신뢰구간의 백분율
데이터의 68%는 평균의 표준편차 내에 속하며, 95%는 표준편차 두 배수 내에 있음
표준정규분포는 x축의 단위가 평균의 표준편차로 표현되는 정규분포
데이터를 표준정규분포와 비교하려면 데이터에서 평균을 빼고 표준편차로 나눔 (정규화, 표준화)
변환한 값을 z점수라고 하며 정규분포를 z분포 라고도 함
QQ 그림은 표본이 정규분포에 얼마나 가까운지를 시각적으로 나타냄
데이터는 일반적으로 정규분포를 따르지 않음
때로는 분포가 비스듬하게 기울어져 있거나 이항 데이터처럼 이산적일 수 있음
대칭 및 비대칭 분포는 긴 꼬리를 가질 수 있음 (양 극한값)
정규분포와 생김새는 비슷하나 꼬리 부분이 약간 더 두껍고 김
각 시행은 정해진 확률로 두 가지 결과를 가짐
통계에서는 통상적으로 1이 성공을 의미
덜 나오는 결과에 1을 지정
이항분포란 각 시행마다 성공확률이 정해져 있을 때 주어진 시행 횟수 중 성공한 회수의 도수분포표를 의미
이전에 발생한 데이터를 통해 시간 혹은 공간 단위에서 평균적인 사건의 수를 추정할 수 있음
시간, 공간 단위 표본을 수집할 때 사건들의 분포를 알려줌
일정 시간/공간 구간 안에서 발생한 평균 사건의 수를 의미하는 람다는 핵심 파라미터
사건과 사건 간의 시간 분포를 모델링
푸아송 부포와 지수분포에 대한 시뮬레이션 연구의 핵심은 람다가 해당 기간동안 일정하게 유지된다는 가정
일반적으로 적절하지 않음
드물게 발생하는 사건
데이터가 전혀 없다면 사건 발생률을 추정할 근거가 없음
추측이 가능한 것은 특정 기간 후에도 아무런 일이 일어나지 않았다면 시간당 발생률이 1이 아니라는 것은 분명히 알 수 있음
많은 경우 사건 발생률은 시간에 따라 일정하지 않음
변화 주기가 일반적인 사건 발생 구간보다 길다면 문제가 안되나 시간에 따라 지속적으로 변화한다면 지수 또는 푸아송 분포는 더이상 유용하지 않음
기계 고장은 시간이 지날수록 위험이 증가
지수분포를 확장한 것으로 형상 파라미터 베타로 지정된 대로 발생률이 달라질 수 있음
베타가 1보다 큰 경우 시간에 지남에 따라 발생률 증가, 작을 경우 감소