해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다
1. 범주형자료분석
- 범주형 자료
- 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터
- 범주형 자료 분석
- 범주형 자료에 대한 통계적 추론 방법
- 범주형 자료 분석은 카이제곱 검정으로 추론함

1-1. 적합도 검정
- 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정

1-2. 독립성 검정
- 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지 독립성을 검정

1-3. 동질성 검정
- 서로 다른 세 개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

2. 상관&회귀 분석
2-1. 상관분석
- 두 변수 간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도


2-2. 회귀분석
- 회귀분석
- 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법
- 종속 변수
- 다른 변수의 영향을 받는 변수, 반응변수, 예측 하고자 하는 변수
- 독립 변수
- 종속변수에 영향을 주는 변수, 설명변수, 예측 하는 값을 설명하는 변수
회귀분석의 종류
- 단순 회귀분석
- 다중 회귀분석
- 2개 이상의 독립변수로 종속변수를 예측하는 회귀모형
1) 단순회귀분석
- 하나의 독립변수로 종속변수를 예측하는 모형


최소제곱법(최소자승법)(Least Mean Square)
- 회귀 모형의 모수 β0, β1을 추정하는 방법중 하나를 최소 제곱법이라고 하며, 회귀 모형의 모수를 회귀 계수
- OLS(Ordinary Least Square) : 최소제곱법을 통한 회귀모형의 모수 추정
- LSE(Least Square Estimation) : 최소제곱법을 통해 구한 추정량

분산분석
- 분산분석을 통한 회귀식의 유의성 판단


회귀분석의 β0, β1의 추론과 가설검정

결정계수 R2

수정결정계수 Adjust R2

잔차분석

2) 다중회귀분석
- 2개 이상의 독립변수로 종속변수를 예측하는 회귀모형

로지스틱 회귀분석
- 반응 변수가 범주형(이진수)인 경우 사용하는 모형
- ex) 제품불량, 신용도
다항 회귀분석
- 독립변수가 k개이고 반응변수와 독립변수가 1차 함수 이상인 회귀분석
변수선택법
더미 변수(dummy variable)
-
값이 ‘0‘ 또는 ‘1’로 이루어진 변수
-
지금까지 회귀분석에서는 연속형 변수를 사용하는 예를 들었지만, 범주형 변수를 사용하기 위해서는 더미변수가 필요함
-
예를 들어 사는 지역을 ‘1’, ‘2’, ‘3’으로 사용하면 연속형 변수여서 정확한 변수로 사용할 수 없음
-
범주형 변수를 0과 1의 조합으로 표현 할 수 있도록 더미 변수를 생성함
-
예시) 최종 학력: 고졸, 대졸, 석사, 박사 4가지로 표현 한다면 필요한 더미의 개수는 4-1 = 3개임

다중공선성(Multicollinearity)
-
상관관계가 높은 독립변수들이 동시에 사용될 때 문제가 발생
-
결정계수 R2 값이 높아 회귀식의 설명력은 높지만 독립변수의 P-value 커서 개별 인자들이 유의하지 않는 경우 의심할수 있음
-
일반적으로 분상팽창요인 (Variance Inflation Factor: VIF)이 10 이상이면 다중공선성이 존재함
-
VIF=1−Rk21, k번째 독립변수를 종속변수로 나머지를 독립변수로 하는 회귀모형의 결정계수
-
분석이 매우 커져서 문제발생 또는 독립변수가 종속변수에 끼치는 영향에 문제가 발생
해결 방안
1) 다중공선성이 존재 하지만 유의한 변수인 경우 목적에 따라서 사용할 수 있음
2) 변수 제거
3) 주성분분석으로 변수를 재조합