interview(3)

nellcome·2023년 3월 1일
0

인터뷰

목록 보기
4/5

version 1.0.0 (23.03.01)

선대 용어

  • Rank : 행렬 A의 image 차원 수, 선형독립적인 열벡터의 수
  • 선형독립 : 수 u₁,...,u𝗇에 대해 u₁a₁ + ... + u𝗇a𝗇 = 0이라면
    'u₁ = ... = u𝗇 = 0'이라는 조건이 성립할 때
    벡터 a₁,...,a𝗇은 선형독립이라고 할 수 있다.
  • 기저벡터 : 선형독립이며 span된 공간을 이루는 최소한의 벡터

고유값(eigen value)와 고유벡터(eigen vector)이 무엇이고 왜 중요한지 설명해주세요.

정방행렬 AA에 임의의 벡터 xx를 선형변환했을 때 기존 벡터와 평행할 때 Ax=λxAx = \lambda x

  • λ\lambda : 고유값
  • xx : 고유벡터

이를 통해 고유값 분해를 할 수 있으며, 정방행렬 뿐만 아닌 mm x nn 행렬도 분해할 수 있는 특이값 분해(SVD), 데이터 차원 축소를 할 수 있는 PCA에 사용할 수 있다.

고유값 분해

고유값 분해란 행렬을 고유 벡터와 고유 값으로 분해한 것이다.
앞선 수식 Ax=λxAx = \lambda xA[v1,v2,,vn]=[λ1v1,λ2v2,,λnvn]A[v_1,v_2,\cdots,v_n] = [\lambda_1v_1,\lambda_2v_2,\cdots,\lambda_nv_n]은 다음과 같이 나타낼 수 있다.

행렬 A의 고유 벡터들을 열 벡터로 하는 행렬을 PP, 고유값을 대각원소로 가지는 대각 행렬을 Λ\Lambda라 하면 다음 식이 성립됩니다.

AP=PΛAP = P \Lambda -> A=PΛP1A=P \Lambda P^{-1}

SVD

고유값 분해는 정방 행렬에 대해서만 가능하지만 특이값 분해 SVD는 정방 행렬뿐만 아니라 행과 열의 크기가 다른 행렬에 대해서도 적용할 수 있다.

mm x nn 크기의 행렬 A는 mm x mm 크기의 행렬 UUmm x nn 크기의 \sum 그리고 nn x nn 크기의 VTV^T로 나뉜다.
이 때 U,VU,V에 속한 벡터를 특이 벡터라 하며, 모든 특이 벡터는 서로 직교하는 성질을 가진다.
또한 \sum의 0이 아닌 대각 원소값을 특이값이라고 한다.

직교행렬 : 행렬 A와 A의 전치 행렬을 곱했을 때 단위 행렬이 되는 행렬

행렬 UU : AATAA^T를 고유값 분해해서 얻은 직교 행렬, Left Singular Vector
행렬 VV : ATAA^TA를 고유값 분해해서 얻은 직교 행렬, Right Singular Vector

기하학적 의미

직교 행렬은 선형 변환 중 회전 변환을 의미하며 대각 행렬은 스케일 변환을 의미한다.
그렇기에 행렬 A=UVTA=U\sum V^TVTV^T로 회전 변환을 하며 \sum로 스케일 변환을 한 뒤 다시 UU로 회전 변환을 하는 것으로 이해할 수 있다.

그렇다면 "직교하는 벡터 집합 V = (v₁, v₂, ...)에 대하여 선형 변환 후에도 그 크기는 변하지만 여전히 직교하게 만드는 그 직교 벡터 집합은 무엇이고, 변경 후의 벡터 집합은 무엇인가?"

해당 질문에 대한 답변은
A=UVTA=U\sum V^T에서 양변에 VV를 내적한, AV=UAV=U\sum입니다.
U,VU,V에 속한 벡터는 서로 직교하는 성질을 가지며, 이는 서로 직교하는 벡터로 구성된 행렬 VV에 선형 변환 AA를 해준 뒤에도 서로 직교하는 벡터로 구성된 행렬 UU가 만들어진다. 다만 그 크기의 차이가 \sum만큼 존재한다.

PCA

주성분 분석의 기본적인 개념은 차원이 큰 벡터에서 선형 독립하는 고유 벡터만을 남겨두고 차원 축소를 하게 된다.
이때 상관성이 높은 독립 변수들을 N개의 선형 조합으로 만들며 변수의 개수를 요약, 압축해 내는 기법이다.
그리고 이 압축된 각각의 독립 변수들은 선형 독립, 즉 직교하며 낮은 상관성을 보이게 된다.

2. 샘플링과 리샘플링이 무엇이고 리샘플링의 장점은?

샘플링이란 표본추출을 의미하며, 모집단에 대한 추정치를 얻기 위해 임의의 sample을 뽑아내는 것이다.
리샘플링은 모집단의 분포 형태를 알 수 없을 때 주로 사용되며 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아 통계량의 변동성(모분포와 비슷할 것으로 추정되는 분포)을 확인하는 것이다.

3. 확률 모형과 확률 변수는?

확률 변수 : 표본 공간의 각 단위 사건에 실수 값을 부여하는 변수, 이산확률변수와 연속확률변수로 나뉘어짐
확률 모형 : 확률변수를 이용하여 데이터의 분포를 수학적으로 정의한 모형, 주로 확률 분포 함수와 확률 밀도 함수를 사용한다.

  • 확률 모형
    • 확률질량함수(PMF) - 이산형
    • 확률밀도함수(PDF) - 연속형
    • 누적분포함수(CDF)
  • 사건 : 하나의 행위가 하나 이상의 결과를 도출하는 것에 대한 과정 혹은 절차를 나타낸다.
  • 결과 : 어떤 실험에 의해 발생 가능한 결과
  • 표본 공간 : 확률 실험에서 발생할 수 있는 모든 결과로 구성된 집합
  • 사건 : Sample space(표본 공간)의 부분집합

4. 누적 분포 함수와 확률 밀도 함수는 무엇인가요?

확률 밀도 함수 : 임의의 실수 집합에 포함되는 사건들의
(TODA)

5. 조건부 확률이란?

조건부 확률 : 사건 A가 일어났다는 전제 하에 사건 B가 일어날 확률이며 이는 베이즈 정리와 이어진다.

  • 베이즈 정리 : 가능도(Likelihood)와 증거(Evidence)를 바탕으로 사전확률을 사후확률로 업데이트한다.
  • 대표적으로 몬티홀 문제가 있다.

6. 공분산과 상관계수는 무엇일까요?

공분산 : 확률변수 X의 편차와 확률변수 Y의 편차를 곱한 것의 평균이다.
이는 두 변수간의 음 혹은 양의 상관관계를 나타낸다. 하지만 상관관계가 얼마나 큰지는 제대로 반영하지 못한다. 단위 크기에 영향을 많이 받기 때문
그렇기에 이를 보완하기 위해 상관계수를 사용한다.
상관계수 : 공분산을 단위화 -> 공분산에 각 확률변수의 분산을 나눔
이를 통해 상관관계와 그 상관성이 얼마나 큰지도 알 수 있다.

7. 신뢰 구간의 정의는?

신뢰구간은 모집단의 모수가 위치해 있을 것으로 신뢰할 수 있는 구간이다.

8. p-value에 대한 설명

p-value는 1종 오류를 범할 확률이다.
검정을 할 때 유의 수준을 정하는데 유의 수준보다 p-value가 작다면 귀무가설을 기각하고 대립가설을 채택한다.
1종 오류 : 귀무가설이 참인데 기각한 경우

  • 귀무가설 : 기존의 주장
  • 새로운 주장 : 대립가설
  • 가설검정 : 모집단의 특징에 대한 통계적 가설을 추출된 표본을 통하여 검토하는 추론 방법
  • 일반적으로 주장하고자 하는 사실을 대립가설, 기각하고자 하는 사실을 귀무가설로 둔다.
  • 1종 오류의 상한선(유의수준)을 정하고 p-value 값이 유의수준보다 작다면 1종 오류를 범할 가능성이 낮으므로 귀무가설을 기각

10. 평균과 중앙값 중에 어떤 케이스에 뭐를 쓰나요?

  • 평균 : 모든 관측값의 합을 자료의 개수로 나눈 것
  • 중앙값 : 전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값

평균이 유용한 경우 : 평균 근처에 표본이 몰려 있는 상황에서 대표값, 극단적인 값에 영향을 받는 단점이 있다.
중앙값이 유용한 경우 : 극단적인 값에 영향을 덜 받기에 표본의 편차, 혹은 왜곡이 심한 경우 유용

11. 중심극한정리가 유용한 이유?

중심극한정리란 크기가 n인 표본추출이 무수히 많이 수행되면, 표본 평균의 분포가 정규분포에 수렴한다는 것
이는 모집단의 형태가 어떠하든 표본 평균의 분포가 정규분포를 따르기에 유용하다.

12. 엔트로피에 대해 설명

데이터가 어떤 클래스에 속할 확률에 대한 기대값으로 표현할 수 있다.

13. 모수적 방법론과 비모수적 방법론

표본의 통계량(평균, 표준편차)을 통해 모집단의 모수를 추정하는 방법을 통계적 추론이라고 한다.

모집단이 어떤 분포를 따른다는 가정 하에 통계적 추론을 하는 방법을 모수적 방법이라 한다.
표본의 수가 30개 이상일 때 중심극한 정리에 의해 정규분포를 따르므로 모수적 방법론을 사용한다.

반대로 비모수적 방법은, 표본의 수가 적거나 정규성 검정에서 정규 분포를 따르지 않는다고 증명되는 경우이다.

14. likelihood와 probability의 차이

  • 확률 : 어떤 시행에서 특정 결과가 나올 가능성, 즉 시행 전 모든 경우의 수가 정해져있으며 그 총합은 1이다.
  • 가능도 : 어떤 시행을 충분히 수행한 뒤 그 결과를 토대로 경우의 수의 가능성을 도출하는 것, 이는 추론이기에 가능성의 합이 1이 되지 않을 수 있다.

18. 검정력(statistical power)은 무엇일까요?

제 2종 오류인 "귀무가설이 거짓인데 채택할 경우"를 β\beta라고 할 때 (1-β\beta)가 검정력이다.
즉 대립가설이 참인 경우 귀무가설을 기각할 확률

20. 아웃라이어 판단 기준

이상치를 탐지하는 방법 중 하나로 IQR 기법이 있다.
IQR 기법은 데이터를 오름차순 정렬하고 25%, 50%, 75%, 100%로 4등분 하며 75% 지점과 25% 지점의 값의 차이를 IQR이라고 한다. 이 IQR에 1.5를 곱한 값을 75% 지점에 더하여 최대값을, 25% 지점의 값에서 빼서 최소값을 계산한다. 이 때 최소값보다 작거나 최대값보다 큰 값을 이상치라고 한다.

또 다른 탐지 방법으로 Z-score를 계산하는 방식이 있다.

22. Bias를 통제하는 방법

편향 : 데이터 내에 있는 모든 정보를 고려하지 못함 -> 언더피팅
분산 : 에러나 노이즈까지 학습을 함 -> 오버피팅
이는 서로 tradeoff 관계를 가진다.
이를 통제하기 위해서는 정규화, 학습 데이터 추가 등의 방법이 있다.

23. 로그 함수는 어떤 경우 유용한가요?

단위수가 너무 큰 값들을 바로 회귀분석 할 경우 결과를 왜곡할 우려가 있으므로 이를 방지하기 위해 사용된다.
또한 비선형관계의 데이터를 선형으로 만들기 위해 사용된다.
로그 함수는 0~1 사이에서는 음수값을 가지므로, log(1+x)\log(1+x)와 같은 방법으로 처리해야한다.


출처 : 다크 프로그래머 블로그
출처 : 귀퉁이 서재
출처 : PCA

profile
AI 새싹

0개의 댓글