다중공선성 (vif 계산하기)

이경주 Junior data analyst·2023년 12월 22일

Python

목록 보기

4/8

다중공선성이란?

독립성을 위반하는 경우이다. 회귀분석에서 독립변수들이 서로 독립적이어야 한다는 가정은 통계적 기법에서 기본 조건으로 간주한다.
독립변수가 많아질수록 모델의 적합도는 향상될 수 있지만, 변수들 간 상관성이 높아지면 모델의 적합도와 예측력이 현저히 떨어질 수 있다. 이러한 현상을 다중공선성이라고 한다. 다중공선성은 모델의 해석을 어렵게 만들고, 회귀계수의 추정치가 불안정해지는 문제를 초래한다.
다중공선성을 확인하고 해결하는 방법 중 하나는 Variance Inflation Factor(VIF)이다. VIF는 특정 변수를 종속변수로 놓고 나머지 변수를 독립변수로 사용하여 회귀분석을 수행한 후, 해당 회귀분석의 결정계수(R²)의 역수를 취하여 계산한다. VIF 값이 높을수록 해당 변수는 다중공선성 문제가 있다고 판단할 수 있다.

요약하자면:
1. 다중공선성은 독립변수들 간의 높은 상관성으로 인해 발생하며, 이는 회귀분석의 기본 가정을 위반하는 경우이다.
2. 독립변수가 많아지면 모델의 적합도는 향상될 수 있지만, 변수들 간 상관성이 높아지면 적합도와 예측력이 떨어질 수 있다.
3. 다중공선성 문제를 진단하는 방법 중 하나로 VIF가 있으며, 이는 결정계수의 역수를 사용하여 계산한다.

$\frac{1}{1-R_j^2}$ 여기서 $R_j$ 는 $X_j$ 와 나머지 독립변수들 간 결정계수이다.

기준점은 다르긴 하지만 빡세게 다중공선성을 없애려면 5, 기본적으로는 10을 잡는다. (실험이나 신뢰성이 높은 데이터의 한정으로 5로 적용하긴 한다.)

1. python

배포되어지는 sklearn에 동봉되어 있기 때문에 간단하다. 아마 너무 간단해서 이 글을 검색해서 볼 사람이 없을 것 같긴 하지만 그래도 적어본다.
차이점을 두기 위해서 함수화하여 글을 작성해본다.

from statsmodels.stats.outliers_influence import variance_inflation_factor as vif

def rid_vif(data, option = 2):
    vif_1 = pd.DataFrame()

    vif_1['features'] = data.columns

    vif_1['vifs'] = [vif(data.values, i) for i in range(len(data.columns))]
    
    if option == 1:
        result = data.drop(vif_1[vif_1['vifs'] > 10].iloc[:,0], axis = 1)
    
    elif option == 2:
        result = vif_1
    
    return result
    
    
# data는 Y를 제외한 설명변수들 이다. 

# option은 1을 넣었을 때 이 설명변수들 중 다중공선성이 10이 넘는 애들을 제거한 나머지 data

# option = 2는 변수들의 다중공선성을 나타내는 표이다.

data = data불러오기

data_x = data[features]
data_y = data[목표]

data_x_scaled = rid_vif(data_x, 1)

이경주 Junior data analyst

Good afternoon, Good evening and Good night

이전 포스트

데이터 scaling

다음 포스트

다중공선성 (vif 계산하기)

Python

다중공선성이란?

1. python

데이터 scaling

Python Class 이해하기

0개의 댓글