Les.12 Regression-1

TonyHan·2020년 7월 31일

Stocks

목록 보기

6/17

Regression

우리가 12단원에 배울 것

내가 만든 데이터가 정규분포를 따르는지 확인
regression(회귀) 분석
회귀 분석은 통계학 용어로

여러 자료들간의 관계를 수학적으로 증명하는 것을 의미

회귀 분석을 하게 되면 한개 이상의 독립적인 변수를 사용함. 이를 통해 종속적인 변수를 찾아냄

독립 변수 : 'X' 값
market indices(시장 지수) + employment numbers(취업률)
종속 변수 : 'Y' 값
stock price returns(주식 가격 이익) + electricity consumption(전기 사용료) + corn harvested(옥수수 재배) 등등

회귀 분석을 하는 이유는 두 개의 주가의 관계를 파악하는 데 사용

이러한 행위를 Statistical Arbitrage(통계적 차익거래)이라고 부름.
Statistical Arbitrage은 두개의 주가의 관계를 보고 거래를 하는 거래기법이라고 볼 수 있다.

이때 우리가 분석하며 생기는 데이터는 두가지로 나뉘어 지는데
1. Signal : 우리에게 도움이 되는 실질적인 데이터로 우리가 종속 변수를 예측하는데 도움을 줌
2. Noise : 우리에게 1도 도움이 안되는 필요없는 데이터

Actual Stock Price : Signal은 극도로 적지만 Noise는 다수인 데이터
이러한 데이터는 Signal-to-Ratio 비율이 극도록 낮음 -> 이때 예측 모델들은 굉장히 데이터와 적합한 결과가 나오기 때문에 실재 세계의 예측과는 큰 괴리가 있을 수 있음

결론적으로 독립변수와 주가 수익간의 관계는 시간에 걸치어 변할 수 있다. => 즉 우리의 예측 모델은 미래에는 맞이 않을 수 있다고 생각할 수 있다. 그렇기 때문에 최근의 지표에 우리의 예측 모델을 지속적으로 업데이트 해줄 필요가 있다.

1. Distribution(분포)

많은 통계적 모델들은 정규 분포(가우시안, 벨 곡선)를 따른다고 가정
이 모델들은 우리의 모델이 쓸모 있는지 확인하는데 사용
그렇기에 앞으로 우리는 정규 분포로 만드는 법과 이용하는 법에 대해서 배우도록 함

Random Variable = Take on a Random Value, 그냥 'x' 값

이때 랜덤 변수가 받는 값은 확률분포(probability distribution)에 따라 달라지게 됨
즉, 확률변수에 들어가는 정의값에 따라 확률값이 달라지는 확률 분포값이 곧 우리가 사용할 랜덤변수를 의미하게 됨

이때 확률분포가 underlying probability distribution인지를 알 방법이 없기 때문에 우리는 방정식(확률질량함수 또는 확률밀도함수)을 활용하여 이 확률분포를 알아내야 함

그리고 이러한 방식으로 만들어진 그래프를 Histogram 이라고 부름

여기에서 가장 중요한 것은 절때 숫자별로 확률 값이 달라지는 것이 아닌. 특정값의 확률이 어떻게 정의되어 있다는 것을 의미함을 이해하여야 한다.

2. Parameters of a Distribution

이때 우리가 자주사용하는 확률분포
1. PDF - Probability Density Function(확률 밀도 함수)

PDF 는 우선
X값은 D 값을 따른다고 표현하고
P(x|D) = p(x) 꼴의 조건부 확률을 만들어 0과 1사이의 확률 값을 가지게 됩니다.

그리고 이때 나온 값들을 가지고 '정규화'를 하게 되는데

위와 같이 μ(평균) 값과 σ^2(분산) 값을 기반으로 0을 기점으로 정규분포가 그려지게 됩니다.

3. Testing for Normality

우리가 만든 정규분포가 제대로 된 정규분포인지 확인 하는 방법

1) 가장 쉬운 방법은 히스토그램을 그려보아 그래프를 비교하는 것이지만

우리의 눈은 정확하지 못하여서 그렇게 할 수 없다.

그래서 사용하는 것이

2) Boxplot

박스플롯의 다섯 수치는 다음과 같은데
1. 최솟값 : Q1에서 1.5 IQR(Q3-Q1)을 뺀 위치(Whisker)를 의미
2. 최댓값 : Q3에서 1.5 IQR을 더한 위치(Whickser)을 의미
3. Q1(제 1사분위수) : 25% 위치의 값
4. Q2(제 2사분위수) : 50% 위치의 값
5. Q3(제 3사분위수) : 75% 위치의 값