[머신러닝] 머신러닝 개요, 선형 회귀

Taegang Yun·2023년 12월 15일
1

[머신러닝]

목록 보기
1/5

머신러닝

이전의 경험 이나 사례 를 바탕으로 새로운 패턴 예측 학습

Task Examples

Visual Perception

  • 사람 얼굴 사진을 보고 그 사람이 누구인지 알아내고 이름 기억해내기
  • 동물들이 먹이를 찾거나 위험에 있는 것을 인지하고 피하는 것

Speech Recognition

  • 음성을 인식하여 문장의 의미를 알고 그 목소리의 주인공이 누구인지도 알아내는 과정

Decision Making

  • 사람이 지능을 이용하여 복잡한 상황에서도 판단을 내릴 수 있는 기능

-> 인간 지능의 고유한 영역을 컴퓨터에 부여

Machine Learning Framework

예측 함수를 이용하여 입력과 출력을 대응시키는 과정.
예측값을 점점 올바른 값으로 만들어내기 위해서 예측함수에 parameters를 업데이트 시켜 나가는 과정.

인간이 경험으로부터 새로운 것을 학습하고 점차 정확도를 향상시켜 나가는 방식을 컴퓨터에 구현하고자 하는 학문분야.

지도 학습(Supervised Learning)

  • 데이터가 라벨링이 되어 있음
  • Classification, 선형 회귀, 로지스틱 회구

비지도 학습 (Unsupervised Learning)

  • 데이터 라벨링 X
  • 데이터의 유사성에 기반하여 유사한 데이터 cluster를 찾아내는 과정
  • DNA clustering, social network analysis, cocktail party problem

일변수선형회귀

  • 예측함수에 변수를 하나만 사용하는 형태

비용함수

  • 오차 = |예측함수가 뽑아낸 값 - 실제 값|
  • 오차의 제곱을 모두 더하고 2m(m : 데이터 개수) 으로 나눔-> 비용함수
  • 이 비용함수를 최소화하는 파라미터 들을 찾아 나가는 것이 목적
  • 따라서 비용함수가 낮을수록 회귀를 잘했다고 할 수 있다.

경사하강

  • 비용함수 정의 후 이를 최소로 하는 파라미터들을 찾아가는 방법
  • 적절한 학습상수(알파)를 찾는 것이 중요
  • Batch Gradient descent : 모든 샘플 기반으로 경사 하강
  • Stochastic Gradient Descent : 하나의 샘플을 기반으로 경사 하강

다변수 선형회귀

  • 예측함수의 변수가 2개 이상인 선형회귀 모델
  • 일변수선형회귀와 동일한 방식으로 경사 하강법을 이용하면 됨
  • 다만 업데이트 해야 될 파라미터가 늘어난다.

특징 값 스케일링

  • 특징 값들의 범위가 너무 넓으면 비용함수 수렴에 영향을 준다.
  • 이를 보완하기 위해, 특징 값들의 범위를 줄이는 행위
  • 일반적으로 -1~1로 조정
  • 여기서 dynamic range 는 (최대 - 최소) 혹은 표준편차를 의미한다.

적절한 학습상수 선정

  • 학습 상수(알파)는 비용함수 수렴 속도에 영향을 미친다.
  • 너무 크면 overshoot(최소값 패스), 너무 작으면 수렴 오래 걸림
  • 처음엔 0.1로 시작하고, 이후 상황을 봐서 크기를 조절하는 것이 좋음.

정규방정식

  • Xw = y가 가장 이상적인 선형회귀
  • 여기서 w를 구하는 것이 목적이다.
  • 하지만, 역행렬을 구하기 어려운 행렬이 존재 -> 다른 편법이 있음

경사 하강 vs 정규방정식

  • 경사 하강은 여러 번의 반복과정, 적절한 학습 상수 선정, 특징 값 스케일링이 필요
  • 정규방정식은 한 번에 최적 파라미터 결정 가능, 다만 특징 값이 많으면 느림(데이터 종류)

Quiz

1. 다음 중에서 지도 학습 알고리즘을 가장 적절하게 사용할 수 있는 응용 예는?

a. 어떤 소비자가 구매한 물품에 대한 기록을 이용하여 그 소비자가 함께 구매할 가능성이 높은 물품들에 대한 패턴을 발견하고자 함
b. 어느 회사의 최근 5년간 주식 가격 데이터를 이용하여 내년 특정한 시기에 그 주식의 가격이 얼마가 될 지 예측하고자 함.

정답 : b

2. 다음 중에서 비지도 학습 알고리즘을 가장 적절하게 사용할 수 있는 응용 예는?

a. 사과의 품질을 보통, 우수, 최우수로 등급을 매겨 출하하는 어느 농장에서 금년에 생산된 사과의 품질을 자동적으로 부여하고자 함.
b. 최근 10년간 어느 학술지에 발표된 논문들 주엥서 유사한 주제에 관한 논문들을 같은 그룹으로 목록을 만들고자 함.

정답 : b

3. 선형 회귀는 주어진 데이터 x에 대한 예측함수 y = h(x)가 ( )선이며, 데이터에 예측 함수를 적합시키는 ( )학습 알고리즘이다.

답 : 직선, 지도

4. 비용 함수에 관한 다음 설명 중에서 올바른 것은?

답 : 비용 함수는 희귀 모델의 오차를 계산하므로, 이것을 최소화하여야 한다

5. 특징 값이 2개인 경우 선형 회귀는 ( )에 피팅되며, 예측함수는 ( ) 차원 공간에 표현될 수 있다.

답 : 평면, 3차원

6. 특징 값이 N 개인 경우 선형 회귀의 파라미터의 개수는 ( ) 개이다.

답 : N + 1

profile
언젠간 전문가가 되겠지

0개의 댓글