통계

김보혜·2022년 9월 4일
0

통계:산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다.

모집단 : 정보를 얻고자 하는 목표대상의 전체 집단. 이것들을 평균을 모평균이라고 하며 (μ, 뮤)라고 한다.

통계와 확률의 차이점
-통계 : 모집단 정보 없어서 표본으로 모집단 추정
-확률 : 모집단 정보로 모집단 대비 특정 사건 발생 비율을 표현한 것

확률변수
-표본공간에서 각 사건에 실수를 대응시키는 함수
-특징
=하나의 사건에 대하여 하나의 값,실험결과에 의해 변한다.
=확률 변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현
-확률 변수 평균 = 기대값 =

회귀분석
-변수들간의 함수적 관계를 선형으로 추론, 독립변수(x)를 통해 종속변수(y)를 예측
-독립 변수가 종속 변수에 어떤 영향을 끼치는지 설명가능
-비선형인 함수적 관계일 경우 비선형회귀 (nonlinear regression)를 사용
-독립변수(x) : 종속변수에 영향을 주는 변수,설명변수라 ,예측 하는 값을 설명
-종속변수(y) : 다른 변수의 영향을 받는 변수, 반응변수,예측을 하고자 함

단순회귀분석
-하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법
-회귀선으로부터 각 관측치의 오차를 최소로하는 선을 찾는 것이 핵심
-오차를 최소로 하여 추정하는 방법 = 최소제곱법
-분산분석표 : 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 회귀식의 유의성을 판단

-제곱합을 각각의 자유도 나눈 값을 평균제곱(mean square)라고 함
-평균제곱오차(mean square error) = SSE/(n-2) = K¢4
-회귀평균제곱(regression mean square) = SSR/1
-결정계수 : 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치화한 값
-0과 1사이에 값으로 1에 가까울수록 추정된 모형이 설명력이 높다

다중회귀분석
-2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법
-변수선택법
-전진선택법(forward selection): 독립변수를 1개부터 시작하여 가장 유의한 변수들부터 하나씩 추가하면서 모형의 유의성을 판단

  • 후진 제거법(backward selection): 모든 독립변수를 넣고 모형을 생성한 후, 하나씩 제거하면서 판단
  • 단계접 방법(stepwise selection): 위의 두가지 방법을 모두 사용하여 변수를 넣고 빼면서 판단

-더미변수
-값이 ‘0‘ 또는 ‘1’로 이루어진 변수
-범주형 변수 사용시 사용
-예) 최종 학력: 고졸, 대졸, 석사, 박사 4가지로 표현 한다면 필요한 더미의 개수는 4-1 = 3개

-다중공선성
-상관관계가 높은 독립변수들이 동시에 사용될 때 문제가 발생
-해결방안
-다중공선성이 존재 하지만 유의한 변수인 경우 목적에 따라서 사용할 수 있음
-변수 제거
-주성분분석으로 변수를 재조합

profile
데이터 직무로 길 찾는중

0개의 댓글