[Week2] (데이터 사이언스란?) 04. 모델링

jjooki-entist·2022년 8월 29일
0

💡 모델링(Modeling) : 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정

근본적인 개념은 수학적인 모델과 통계적인 모델의 개념에서 나온다.
데이터 사이언스에 사용하는 모델은 통계모델일 수도 있고, 데이터를 분석하는 어떤 시스템일 수도 있다.
모델은 하려고 하는 task에 따라 여러가지 이름으로 불린다.

  • 예측모델
  • 생성모델
  • 요약모델

데이터 사이언스에서는 주로 주어진 데이터의 패턴을 파악해서 미래의 데이터의 패턴을 예측할 수 있는 예측모델을 많이 활용한다.
모델링에는 통계적인 모델링 또는 머신러닝 방법이 주로 사용된다.

Statistical Modeling

💡 통계적 모델링 : 데이터가 정의되는 공간(S, sample space)와 그 공간에서의 확률 분포(P, probability distribution on S)가 있다고 할 때, 어떤 데이터는 S에서의 P를 통해서 만들어졌다고 가정하고 데이터를 잘 기술하는 P를 찾는 과정.

  • 보통 P는 parameter들에 대해서 정의
  • parameter란 어떤 통계 집단을 기술하는 측정된 값
    e.g. 평균(mean, μ\mu), 표준편차(standard deviation, σ\sigma) ...
  • 적절한 파라미터를 찾게 되면 잘 기술하는 P 찾을 수 있음
  • 이러한 파라미터를 찾아가는 과정

Machine Learning Modeling

💡 머신러닝 모델링 : 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 할 수 있는 시스템

  • 머신러닝 모델은 여러 종류 존재
  • 어떤 task를 수행하느냐에 따라서 적합한 모델들이 있다.
    e.g. 분류 - Logistic Regression, Naive Bayes, ...
    회귀 - Linear Regression, Random Forest, ...
  • 통계적인 모델링처럼 적절한 파라미터(또는 가중치)를 찾는 과정
  • 학습방법을 결정하는 파라미터인 hyper-parameter의 영향
    • hyper-parameter : learning rate, batch size, epoch

여러가지 머신러닝 모델

  1. SVM
  2. CNN
  3. 랜덤 포레스트
  4. LSTM
  5. RNN

요약

  • 통계적 모델링은 데이터를 해석할 수 있는 확률 분포를 찾아가는 과정이다. 그 확률분포를 파라미터를 통해 결정된다.
  • 머신러닝 모델링은 주어진 학습 데이터로 정보를 학습하여 일반 데이터를 판단하는 기준을 설정하는 과정이다.
  • 모델링이라는 것은 결국 파라미터를 찾아가는 과정이다.
profile
데이터 사이언티스트를 꿈꾸는 3년차 제품총괄입니다.

0개의 댓글