정규직교는 여러 벡터가 서로 내적이 0이고 크기가 1인 성질을 갖는 경우를 말합니다. 정규직교벡터는 서로 독립적이며 직교하는 성질을 가지고 있어서 많은 수학적 및 기계학습 알고리즘에서 활용됩니다.
퍼셉트론은 다수의 입력으로부터 하나의 출력을 내는 연산을 지칭합니다. 보통 출력에 비선형함수를 추가하여 비선형성을 획득합니다. 여러 개의 퍼셉트론을 병렬로 배치하여 하나의 층으로 구성하고, 이를 여러 층으로 쌓아 신경망을 구성할 수 있습니다.
Autoencoder는 입력과 출력이 동일한 다층퍼셉트론 구조를 가리킵니다. 입력 데이터를 압축하여 중간 단계에서 데이터의 추상화 및 압축을 수행하기 때문에 encoder와 decoder를 분리하여 응용할 수 있습니다. 주로 차원 감소 및 데이터 복원에 활용됩니다.
i.i.d.는 "independent and identically distributed"의 약어로, 여러 개의 확률 변수가 서로 독립이며 동일한 분포를 따른다는 조건을 나타냅니다. 이 조건은 데이터 포인트 간의 독립성과 동일한 특성을 가지는 경우를 말합니다.
주성분 분석은 데이터 포인트들에 대해 특정 벡터(정규직교 제한이 있다)까지의 거리 제곱합을 최소화하는 방식으로 데이터의 주요 구조를 추출하는 방법입니다. 주성분 벡터들을 이용하여 차원 감소를 시도할 수 있으며, 데이터의 가장 큰 분산을 설명하는 요소를 찾는 데 사용됩니다.
피셔 선형 판별은 지도 학습 방법으로, 입력 데이터의 클래스를 가장 잘 구분할 수 있는 선형 변환을 찾는 기법입니다. 입력 데이터의 분산을 최대화하고 클래스 간의 거리를 최소화하여 판별력 있는 특징을 추출하는 데 사용됩니다.
확률적 PCA는 확률적인 관점에서 PCA를 수행하는 방법을 말합니다. EM(Expectation-Maximization) 알고리즘을 사용하여 각 데이터 포인트에 대해 원 분포의 잠재 변수를 추정할 수 있습니다.
비선형 PCA는 커널 함수를 사용하여 비선형 공간에서 PCA를 수행하는 방법입니다. 원 데이터 공간에서는 비선형이지만, 특징 공간에서는 선형성을 가지게 됩니다. 다만, 계산 비용이 많이 들 수 있습니다.
자기 재생성 신경망은 입력과 출력 크기가 같은 퍼셉트론을 디자인하여 학습하는 방식입니다. 중간의 은닉층을 이용하여 차원 감소 등을 수행할 수 있습니다. 표준 PCA를 포함하는 일반적인 케이스로 볼 수 있습니다.
데이터가 생성되는 원 분포가 시간이 지나도 일정하면 stationary, 변화하는 경우 non-stationary로 분류됩니다. 데이터의 stationarity 여부는 데이터 분석 및 예측 모델링에서 중요한 요소입니다.