ML (1)

Yerin·2020년 5월 24일
0

Machine learning

  • 말그대로 기계가 스스로 어떤 패턴을 '학습'하도록 하는 접근법. 즉, 프로그래머가 직접 수많은 규칙을 미리 정해주는 대신 프로그램 자체가 데이터를 통해 스스로 학습하도록 하는 방법이다.
  • 일반적으로 머신러닝 문제는 두가지 범주로 구분된다; supervised learning & unsupervised learning

supervised learning

  • 특정 input에 대해 '정답(label)' output이 있는 데이터 셋이 주어지는 경우를 말한다. 프로그램은 이 정보로부터 input과 output의 관계를 유추하게 된다. 대다수의 머신러닝 문제는 이 형태를 띤다. 세부 분류로는 regression과 classification이 있다.

regression

  • regression의 output은 continuous 값을 갖는다. 즉, 주어진 input변수를 output변수에 대응시키는 어떤 연속함수를 찾는 과정이라고 볼 수 있다.

linear regression

  • linear regression은 어떤 input에 대한 실수값의 output을 예측하는 문제이다.

classification

  • regression과 달리 classification의 output은 discrete값을 갖는다. 즉, classification의 목적은 주어진 input 변수가 어느 discrete category에 속하는지 찾아내는 것이다.

unsupervised learning

  • unsupervised learning은 '정답(label)' output을 제공하는 데이터셋이 없는 문제이다. 따라서 prediction result에 대한 feedback이 없다. 다시말해, 잘못된 prediction을 하더라도 교정해줄 '선생님'이 없는 것. 이 경우에는 가지고 있는 데이터의 변수들 간의 관계에 기반한 clustering으로 어떤 구조를 도출해낸다.

clustering

  • 비슷한 것들끼리 묶는 것. 예를 들어 미국경제에 관한 논문 1000개를 가져다가 자동으로 이 논문들을 비슷한 것끼리 묶을 때 word frequency, sentence length, page count 등의 정보를 이용한다.

Model representation

  • 개똥이가 집을 사려고 한다. 이때 개똥이는 살고자 하는 동네에서 자기가 살고 싶은 크기와 비슷한 집들은 얼마나 비싼지 알아볼 것이다. 그래서 원하는 넓이의 집의 적정 가격을 추정하기 위해 사전에 몇 군데 집의 넓이와 그 가격 정보를 수집했다.
  • 사전에 수집한 집값 정보라는 '정답'이 존재하므로 supervised learning에 해당하며, 추정하고자 하는 값이 실수값이므로 regression problem이다. 여기에 집의 넓이와 가격 사이에 선형의 관계가 존재한다고 가정하면 linear regression 이다.
  • linear regression은 주어진 데이터를 나타내는 최적의 직선을 찾아냄으로써 input(x)와 output(y)사이의 관계를 도출해내는 과정이다.

The Hypothesis Function

  • hypothesis이란, input(feature)과 output(target)의 관계를 나타내는 함수이다.
  • Output값이 나오게 하는 진짜 변수들과 그 변수와 output 사이의 관계식을 정의하는 진짜 관계식을 찾아내는 것은 불가능하다.
  • 가령 집값을 결정하는 요인만 하더라도, 단순히 집의 평수 뿐만 아니라 방이 몇개인지 얼마나 오래된 집인지, 역세권인지 등등 전혀 관련없어 보이는 요인들까지 직간접적으로 집값에 영향을 미칠 수가 있다.
  • 우리는 이렇게 어마어마한 변수들을 모두 고려하고 그 변수들 간의 복잡한 방정식을 찾는 대신 '주로 이러이러한 변수들이 output에 영향을 미칠거야'라고 추정하고 '이러이러한 함수로 변수들과 output의 관계를 얼추 나타내볼 수 있을거야'라고 일종의 '가설'을 세우기 때문에 hypothesis이라고 부르기 시작한 것으로 여겨진다.

cost function

  • 주어진 데이터에 가장 잘 맞는 직선을 선택하려면 일정한 기준이 있어야 한다. 우리의 hypothesis function의 정확도를 측정하기 위해 cost function을 이용할 것이다.
profile
졸꾸 !!!

0개의 댓글