[Elice] 03-03 지도학습 - 회귀

jeongjeong2·2022년 11월 16일
0

Elice

목록 보기
14/18

회귀 개념 알아보기

  • 문제 정의
    데이터 : 기온에 따른 판매량
    가정 : 선형적인 관계를 갖는다
    목표 : 기운에 따른 판매량 예측하기

  • 해결 방안
    회귀 분석 알고리즘

  • 회귀분석이란?

    • 데이터를 가장 잘 설명하는 모델을 찾아 입력값에 따른 미래 결과값을 예측하는 알고리즘
    • 함수의 x(feature)에 대한 계수를 예측하면서 선의 기울기, 위치를 조절할 수 있다.
    • 완벽한 예측은 불가능하기에 최대한 근사하도록 만든다. (= real value - prediction 이 최소가 되도록)

단순 선형 회귀

  • 데이터를 설명하는 모델을 직선 형태로 가정 ( y절편과 기울기를 예측한다)

  • 데이터 전처리 > 경사 하강법을 통해 단순 선형 회귀 모델 학습 > 새로운 데이터에 대한 예측

  • Loss 함수 이해하기

    • 실제 값과 예측 값 차이의 제곱의 합
    • Loss 함수가 작을 수록 좋은 모델
  • Loss 함수 줄이기

    • Gradient descent(경사 하강법)**
        1. 랜덤 초기화
        2. loss 값 계산
        3. Gradient 계산
        4. 계수를 update
    • Normal equation(least squares)
    • Brute force search...
  • 특징
    가장 기초적이나 많이 사용됨
    입력값이 1개인 경우에만 적용 가능 (feature가 여러 개이면 단순 선형 회귀에 적용 불가능)
    입력값과 결과값의 관계를 알아보는 데 용이
    두 변수 간의 관계를 직관적으로 해석하고자 하는 경우 활용

다중 선형 회귀

  • 입력값 x(feature) 수가 2개 이상인 경우 활용할 수 있는 회귀 알고리즘

  • 그래프가 선형으로 그려지지는 않음

  • Loss함수는 단순 선형 회귀와 같이 정의함

  • 특징
    여러 개의 입력값과 결과값의 관계 확인 가능
    어떤 입력값이 결과값에 어떠한 영향을 미치는지 알 수 있다
    여러 개의 입력값 사이 간의 상관 관계가 높을 경우 결과에 대한 신뢰성을 잃는다. ( 상관 관계가 높다 > 서로 값이 영향을 받는다 )

회귀 평가 지표

  • 좋은 모델인지 평가하는 방법
    목표에 얼마나 잘 도달했는지 ( 실측값과 모델이 예측하는 값의 차이에 기반한 평가 방법)
    ex)RSS, MSE, MAE, MAPE, R^2

  • RSS 단순오차
    실제 값과 예측 값의 단순 오차 제곱의 합

    • 직관적인 해석이 가능
    • 오차를 그대로 수용 > 입력 값의 크기에 의존적이다 (data가 많을 수록 RSS가 커진다)
    • 절대적인 값과 비교가 불가능
  • MSE(Mean Squared Error)
    RSS를 data 수인 N으로 나눈 값

    • 제곱을 하기 때문에 이상치에 민감함
  • MAE(Mean Absolute Error)
    square가 아닌 절댓값을 씌운 값

    • 변동성이 큰 지표와 낮은 지표를 같이 예측할 시 유용. 이상치에 민감하지 않기 때문에

+MAE, MSE는 직관적인 해석이 가능하나 평균을 그대로 이용하기 때문에 입력 값의 크기에 의존적이고 절대적인 값과 비교가 불가능하다
ex) feature가 다름에 따라 수치의 범위가 달라지는데 이를 두 feature간의 비교가 불가능함

  • R^2(결정 계수)
    회귀 모델의 설명력을 표현하는 지표 > 1에 가까울수록 높은 성능의 모델이다.
    값이 0인 경우, 데이터의 평균 값을 출력하는 직선 모델을 의미한다.
    • 1 - (RSS/TSS)

0개의 댓글