이진 분류
- 데이터를 2가지로 나누는 분류
- 예측함수를 선형회귀로 구하면 오차가 클 확률이 높음.
- 그래서 완만한 곡선으로 이진 분류를 위한 예측함수를 선정함 -> 로지스틱 회귀
- 함수의 값이 크면 클수록, 그 쪽일 확률이 높다.
분류 경계선
- Sigmoid Function으 값이 0.5 이상 혹은 자연상수 지수에 있는 함수가 0이상이면 1
- Sigmoid Function의 값이 0.5 미만 혹은 자연상수 지수에 있는 함수가 0미만이면 0
- 좀 더 복잡한 분류 경계선이 필요하면, h(x)의 차수를 더 늘리는 방법이 있다.
로지스틱 회귀의 비용함수
- 로지스틱 회귀도 선형회귀처럼 경사 하강을 이용해서 비용함수를 최소화 시키는 최적 파라미터를 찾음.
다중 분류
- 이진 분류를 여러 번 수행함으로써 분류 경계선을 여러 개 만들어서 데이터들을 분류 할 수 있음.
- 이와 같은 방법을 One vs All 이라고 함.
과적합
- 적은 수의 데이터만 참고해서 예측함수를 만드면, 새로운 데이터에 대해 상당히 다른 예측 결과를 도출할 수 있음. 이를
과적합
이라고 함.
- 주어진 데이터에 너무 과도하게 치우친 예측함수가 원인 -> 특징 종류 줄이기, 학습 데이터 늘리기, 정규화 등으로 해결 가능.
- 반대로 주어진 데이터가 너무 없어서 모델이 너무 간단하게 나온 것을 Underfitting (High Bias) 라고 함.
정규화의 목적과 개념
- 정규화는 과적합을 예방하기 위해 사용할 수 있는 방법 중 하나.
- 비용함수에 정규화를 적용-> 원래 비용함수 뒤에 패널티 항을 추가한 것
- 파라미터 크기를 극단적으로 더 줄이게 만듦-> 과적합 예방
선형회귀의 정규화
- 선형회귀를 구현학 위해 경사 하강법, 정규 방정식 2가지가 있다.
- 경사 하강에선 그냥 비용함수에 정규화항(람다로 시작하는)만 추가해서 하면 댐
- 정규방정식에서도 람다 항 추가하면 댐
로지스틱 회귀의 정규화
- 로지스틱 회귀에 사용되는 sigmoid function의 비용함수 뒤에 패널티항을 추가하면 됨.
Quiz
1. 다음 중 이진 분류 문제에 해당하는 것은
정답: 어느 고객이 S전자 회사의 스마트폰을 구입할 것인지 아닌지 예측하기.
2. 로지스틱(Logistic) 함수는 _ 라고도 한다.
정답 : 시그모이드(sigmoid)
3. 정규화(Regularization)에 관한 다음 설명 중에서 올바른 것을 모두 고르세오
a. 데이터를 그려보는 것은 과적합의 유무를 판단하는데 도움이 된다.
b. 특징 값의 수를 증가시키면 과적합을 줄일 수 있다. -> 감소해야함
c. 정규화는 파라미터 값의 크기를 줄여 과적합 문제를 예방할 수 있다.
d. 정규화는 파라미터의 개수를 줄여 과적합 문제를 예방할 수 있다. -> 파라미터 개수가 아닌 크기