version 1.0.0 (23.03.01)
정방행렬 에 임의의 벡터 를 선형변환했을 때 기존 벡터와 평행할 때
이를 통해 고유값 분해를 할 수 있으며, 정방행렬 뿐만 아닌 x 행렬도 분해할 수 있는 특이값 분해(SVD), 데이터 차원 축소를 할 수 있는 PCA에 사용할 수 있다.
고유값 분해란 행렬을 고유 벡터와 고유 값으로 분해한 것이다.
앞선 수식 를 은 다음과 같이 나타낼 수 있다.
행렬 A의 고유 벡터들을 열 벡터로 하는 행렬을 , 고유값을 대각원소로 가지는 대각 행렬을 라 하면 다음 식이 성립됩니다.
->
고유값 분해는 정방 행렬에 대해서만 가능하지만 특이값 분해 SVD는 정방 행렬뿐만 아니라 행과 열의 크기가 다른 행렬에 대해서도 적용할 수 있다.
x 크기의 행렬 A는 x 크기의 행렬 와 x 크기의 그리고 x 크기의 로 나뉜다.
이 때 에 속한 벡터를 특이 벡터라 하며, 모든 특이 벡터는 서로 직교하는 성질을 가진다.
또한 의 0이 아닌 대각 원소값을 특이값이라고 한다.
직교행렬 : 행렬 A와 A의 전치 행렬을 곱했을 때 단위 행렬이 되는 행렬
행렬 : 를 고유값 분해해서 얻은 직교 행렬, Left Singular Vector
행렬 : 를 고유값 분해해서 얻은 직교 행렬, Right Singular Vector
직교 행렬은 선형 변환 중 회전 변환을 의미하며 대각 행렬은 스케일 변환을 의미한다.
그렇기에 행렬 는 로 회전 변환을 하며 로 스케일 변환을 한 뒤 다시 로 회전 변환을 하는 것으로 이해할 수 있다.
그렇다면 "직교하는 벡터 집합 V = (v₁, v₂, ...)에 대하여 선형 변환 후에도 그 크기는 변하지만 여전히 직교하게 만드는 그 직교 벡터 집합은 무엇이고, 변경 후의 벡터 집합은 무엇인가?"
해당 질문에 대한 답변은
에서 양변에 를 내적한, 입니다.
에 속한 벡터는 서로 직교하는 성질을 가지며, 이는 서로 직교하는 벡터로 구성된 행렬 에 선형 변환 를 해준 뒤에도 서로 직교하는 벡터로 구성된 행렬 가 만들어진다. 다만 그 크기의 차이가 만큼 존재한다.
주성분 분석의 기본적인 개념은 차원이 큰 벡터에서 선형 독립하는 고유 벡터만을 남겨두고 차원 축소를 하게 된다.
이때 상관성이 높은 독립 변수들을 N개의 선형 조합으로 만들며 변수의 개수를 요약, 압축해 내는 기법이다.
그리고 이 압축된 각각의 독립 변수들은 선형 독립, 즉 직교하며 낮은 상관성을 보이게 된다.
샘플링이란 표본추출을 의미하며, 모집단에 대한 추정치를 얻기 위해 임의의 sample을 뽑아내는 것이다.
리샘플링은 모집단의 분포 형태를 알 수 없을 때 주로 사용되며 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아 통계량의 변동성(모분포와 비슷할 것으로 추정되는 분포)을 확인하는 것이다.
확률 변수 : 표본 공간의 각 단위 사건에 실수 값을 부여하는 변수, 이산확률변수와 연속확률변수로 나뉘어짐
확률 모형 : 확률변수를 이용하여 데이터의 분포를 수학적으로 정의한 모형, 주로 확률 분포 함수와 확률 밀도 함수를 사용한다.
확률 밀도 함수 : 임의의 실수 집합에 포함되는 사건들의
(TODA)
조건부 확률 : 사건 A가 일어났다는 전제 하에 사건 B가 일어날 확률이며 이는 베이즈 정리와 이어진다.
공분산 : 확률변수 X의 편차와 확률변수 Y의 편차를 곱한 것의 평균이다.
이는 두 변수간의 음 혹은 양의 상관관계를 나타낸다. 하지만 상관관계가 얼마나 큰지는 제대로 반영하지 못한다. 단위 크기에 영향을 많이 받기 때문
그렇기에 이를 보완하기 위해 상관계수를 사용한다.
상관계수 : 공분산을 단위화 -> 공분산에 각 확률변수의 분산을 나눔
이를 통해 상관관계와 그 상관성이 얼마나 큰지도 알 수 있다.
신뢰구간은 모집단의 모수가 위치해 있을 것으로 신뢰할 수 있는 구간이다.
p-value는 1종 오류를 범할 확률이다.
검정을 할 때 유의 수준을 정하는데 유의 수준보다 p-value가 작다면 귀무가설을 기각하고 대립가설을 채택한다.
1종 오류 : 귀무가설이 참인데 기각한 경우
평균이 유용한 경우 : 평균 근처에 표본이 몰려 있는 상황에서 대표값, 극단적인 값에 영향을 받는 단점이 있다.
중앙값이 유용한 경우 : 극단적인 값에 영향을 덜 받기에 표본의 편차, 혹은 왜곡이 심한 경우 유용
중심극한정리란 크기가 n인 표본추출이 무수히 많이 수행되면, 표본 평균의 분포가 정규분포에 수렴한다는 것
이는 모집단의 형태가 어떠하든 표본 평균의 분포가 정규분포를 따르기에 유용하다.
데이터가 어떤 클래스에 속할 확률에 대한 기대값으로 표현할 수 있다.
표본의 통계량(평균, 표준편차)을 통해 모집단의 모수를 추정하는 방법을 통계적 추론이라고 한다.
모집단이 어떤 분포를 따른다는 가정 하에 통계적 추론을 하는 방법을 모수적 방법이라 한다.
표본의 수가 30개 이상일 때 중심극한 정리에 의해 정규분포를 따르므로 모수적 방법론을 사용한다.
반대로 비모수적 방법은, 표본의 수가 적거나 정규성 검정에서 정규 분포를 따르지 않는다고 증명되는 경우이다.
제 2종 오류인 "귀무가설이 거짓인데 채택할 경우"를 라고 할 때 (1-)가 검정력이다.
즉 대립가설이 참인 경우 귀무가설을 기각할 확률
이상치를 탐지하는 방법 중 하나로 IQR 기법이 있다.
IQR 기법은 데이터를 오름차순 정렬하고 25%, 50%, 75%, 100%로 4등분 하며 75% 지점과 25% 지점의 값의 차이를 IQR이라고 한다. 이 IQR에 1.5를 곱한 값을 75% 지점에 더하여 최대값을, 25% 지점의 값에서 빼서 최소값을 계산한다. 이 때 최소값보다 작거나 최대값보다 큰 값을 이상치라고 한다.
또 다른 탐지 방법으로 Z-score를 계산하는 방식이 있다.
편향 : 데이터 내에 있는 모든 정보를 고려하지 못함 -> 언더피팅
분산 : 에러나 노이즈까지 학습을 함 -> 오버피팅
이는 서로 tradeoff 관계를 가진다.
이를 통제하기 위해서는 정규화, 학습 데이터 추가 등의 방법이 있다.
단위수가 너무 큰 값들을 바로 회귀분석 할 경우 결과를 왜곡할 우려가 있으므로 이를 방지하기 위해 사용된다.
또한 비선형관계의 데이터를 선형으로 만들기 위해 사용된다.
로그 함수는 0~1 사이에서는 음수값을 가지므로, 와 같은 방법으로 처리해야한다.
출처 : 다크 프로그래머 블로그
출처 : 귀퉁이 서재
출처 : PCA