머신러닝 개요 - 2

김찬울·2021년 8월 5일
0

예측을 하기 위해 유사도 측정을 사용하는 알고리즘은?

사례기반 학습 (KNN)이다.

모델 파라미터와 하이퍼 파라미터의 차이?

모델 파라미터는 모델의 기울기, 절편등으로 훈련의 결과에 의한 가변적인 파라미터이고

하이퍼 파라미터는 엔지니어가 직접 지정하는 규제로 성능을 향상시키기 위해 사용한다.
또한, 상수로 쓰인다.

모델 기반 알고리즘이 훈련 후에 찾아내는 것은?

모델 기반 알고리즘은 기울기와 절편을 통한 모델을 만드는데 해당 모델을 통해 예측을 이룰 수 있다.

이를 비용을 최소화하는 모델 파라미터라고 한다.

머신러닝 도전과제 1 (나쁜 데이터의 예)

나쁜 데이터로는 충분하지 않은 양의 데이터, 대표성이 부족한 데이터, 낮은 품질의 데이터가 있다.

일맥 상통하는 것은 결과 값을 도출하기에 적합하지 않은 데이터 들이라는 것이다.

머신러닝 도전과제 2 (나쁜 알고리즘의 예)

나쁜 알고리즘으로는 과대적합, 과소적합 알고리즘이 있다

과대적합의 경우 해당 데이터에만 과하게 일반화시켜서 모델도 복잡해질뿐만 아니라 검증값을 넣는다고 하더라도 이를 못 맞출 가능성이 올라간다. 예측 데이터보다 학습데이터에 동기화가 더 된 알고리즘을 과적합이라고 한다.

반대로 과소적합이 있는데
이는 너무 적은 데이터로 인하여 모델이 간단해지는 것을 뜻한다.
해당 경우에는 예측 데이터에 대해 터무니 없이 낮거나 높은 결과를 나타낼 수 있다.

뭐든지 중간이 중요하다.

테스트 세트란?

검증 세트란?

기본적으로 데이터를 훈련 세트, 테스트 세트, 검증 세트로 나누는데

검증세트는 말 그대로 더 나은 모델을 만들기 위한 검증에 사용되는 데이터다.

이를 바탕으로 테스트 세트를 통해 모델을 테스트하고 적당한 하이퍼 파라미터를 추가하면서
최종적으로 1회 또는 적은 횟수에 걸쳐서 검증을 하는 대상이 테스트세트다.

테스트 세트를 사용해 하이퍼 파라미터를 튜닝시 문제점은?

해당 사항에서의 문제는 과대 적합과 반대로 이번에는 테스트 세트에 과대적합이 일어난다.

그러다 보니 실사용에서 새로운 데이터를 만나면 결과값이 기대보다 낮을 가능성이 매우 높다.

profile
코린코린이

0개의 댓글