오른쪽의 그래프가 더 큰 마진을 가지고 분류하기 때문에 새로운 데이터를 더 잘 분류할 것.
SVM(Support Vector Machine) : 곡선을 직선으로 근사화 한 것
SVM은 직선의 형태이기 때문에, 계산량 면에서 많이 유리함
강의에선 로지스틱 회귀에 사용되는 sigmoid 함수의 비용함수를 SVM으로 만듦
위에서부터 차례대로, 로지스틱 회귀 비용함수, SVM 근사, 데이터 개수 곱하고, 람다의 역수를 곱한 식
비용함수에 상수를 곱하거나 나누어도, 최솟값을 만드는 파라미터는 동일하다
SVM 사용을 통해, 더 적은 계산량으로 최적 파라미터를 구할 수 있음.
SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용함수의 값이 작아짐
마진을 최대화하는 방향으로 최적화, Separating Margin을 최대화해서 SVM Decision Boundary를 만들면, 일반화 성능 우수, 새로운 데이터도 성공적으로 분류할 수 있음
위에선 분류경계선이 직선이었지만, 더 복잡한 데이터의 분류를 위해선 더 복잡한 분류경계
선이 필요함 -> 커널 사용으로 해결 가능
커널: 주어진 데이터와 랜드마크 사이의 유사도
여기서 랜드마크는 처음엔 수동으로 설정, 각 데이터들이 랜드마크에서 얼마나 떨어져 있는지를 고려해서 Decision Boundary 생성
여기서 C의 값이 너무 크거나 작을 경우 overfitting 혹은 underfitting 문제가 발생함
가우시안 커널을 사용했을 때, 데이터 x가 랜드마크에 가까우면 특징값은 1에 가깝고, 멀면 0에 가깝다.
다변수 가우시안 분포
: 서로 다른 특징값 간의 상관 관계를 자동으로 획득
: 공분산 행렬과 그 역행렬을 계산해야 할 필요가 있음
각 특징 값들이 독립시행 -> 확률분포를 계산할 때 각 확률분포 함수를 모두 곱해줘서 구할 수 있음
학습 데이터엔 이상 데이터를 포함하지 않은 정상 데이터만 하는 것이 좋고, Cross
Validation, Test set에 이상데이터를 포함시켜서 모델을 구현하는 것이 좋다
다변수 가우시안 확률분포는 파라미터(평균값, covariance)) 에 따라 다른 모양으로 나옴
1. 머신러닝 진단 테스트에 관한 다음 설명 중 올바른 것을 모두 고르시오.
a. 머신러닝 진단 테스트는 학습 알고리즘 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다.
b. 예측함수를 평가하기 위해 우리는 데이터를 두 부분으로 나누는데, 약 50%는 학습용이고 50%는 테스트용이다. -> 70%가 학습용, 30%가 테스트용
c. 로지스틱 회귀에서는 오분류 비율을 테스트 set 오차의 대안으로 사용할 수 있다.
2. 모델 선택에 관한 다음 설명 중에서 올바른 것을 모두 고르시오
a. 모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다.
b. 모델 선택이란 학습 오차가 가장 적은 최적의 모델을 선택하는 문제이다.
c. 검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다.
3. 다음 설명 중 머신러닝 시스템을 설계할 때 가장 먼저 고려하여야 할 사항은?
정답 : 접근방식 선택하기(지도학습 / 비지도학습)
4. 머신러닝 시스템 설계에서는 먼저 학습 알고리즘을 간단하고 손쉽게 구현해 보는것이 좋다. 그리고 하나의 숫자로 표현되는 ( ) 을 이용하여 ( )을 해 봄으로써 앞으로 어떻게 성능을 향상시켜야 하는지에 대한 아이디어를 얻을 수 있다.
정답 : 평가 척도, 오차 분석
5. SVM에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
정답 : 두 벡터 사이의 각도가 90도~270도 범위에 있으면 내적은 음수가 된다, SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다.
6. 가우시난 커널을 사용했을 때, 데이터 x가 랜드마크에 가까우면 특징값은 ( ) 에 가깝고, 데이터 x가 랜드마크에 멀리 떨어지면 특징값은 ( ) 에 가깝게 된다.
정답 : 1, 0
7. ( ) 학습은 라벨이 지정되지 않은 데이터를 학습하는 알고리즘이며, 그 중 하나의 예는 데이터의 구조적 특성을 찾는 ( ) 이다.
정답 : 비지도학습, 클러스터링
8. K-means 알고리즘에 관한 다음 설명 중에서 올바른 것을 모두 고르시오
정답: K-means 에서 최적화 목적함수는 각 클러스터 중심에서 데이터까지의 거리를 최소화하는 것이다., 최적화는 클러스터 할당 단계 및 클러스터 중심 업데이트 단계 모두에서 수행된다.
9. PCA에 관한 다음 설명 중 올바른 것을 모두 고르시오
a. PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다.
b. PCA에서는 평균 정규화가 필요하지만 특징값 스케일링은 필요하지 않다. -> 모두 필요하다
c. 좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.