[ML] 머신러닝이란?

juyeon lee·2023년 2월 19일
0

Machine Learning

목록 보기
1/11
post-thumbnail
✔ 본문은 파이썬을 활용한 Machine Learning(머신러닝), Deep Learning(딥러닝) 강의 내용을 참고한 내용임.

📖 머신러닝의 정의

명시적으로 프로그래밍을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖게 하는 것
= 데이터를 위한 모델링(출력결과) 기법


💡 머신러닝 알고리즘 분류

🔍학습방법

✅ 지도학습 (Supervised Learning)

학습 데이터마다 레이블(=정답)을 가짐 = 정답을 알려주고 학습시킨다!
입력데이터 - 출력데이터 간을 매칭
부모가 아이에게 정답을 알려주고 배우는 것
가장 많이 사용하는 방법은 분류, 예측

> 함수 f(x) = y
> 데이터 형태 : D = {x,y}

✅ 비지도학습 (Unspervised Learning)

학습 데이터가 레이블을 가지지 않음
입력은 있고 출력은 없는 상태에서 이루어지는 학습
부모가 알려주지 않아도 아이가 스스로 깨닫는 것
가장 많이 사용하는 방법은 군집화

> 함수 f(x) = x (x를 고유한 특징으로 생각하자!)
> 데이터 형태 D = {x}

예를 들어, x가 비디오라고 생각해보자.
비디오에는 자동차가 나오지만 '자동차'라는 레이블이 존재하지는 않다.
F(x) 함수는 비디오 항목 자동분류를 해준다.
따라서 레이블이 없는 비디오이지만 고유한 특징인 x가 자동차라는 걸 스스로 출력한다.

✅ 준지도학습 (Semi_Supervised Learning)

학습 데이터가 약간의 레이블 가짐

✅ 강화학습 (Reingforcement Learning)

최종 출력(output)이 바로 주어지지 않고 시간이 지나서 주어지는 경우
가장 중요한 예시가 바둑
→ 기사가 두는 수(행동)가 '승패(결과)에 어떤 영향을 미치는가'를 계산
즉, 시간과 행동을 거쳐 최대한 최상의 출력상태를 만들어내는 것



💡 머신러닝의 예

  • 데이터마이닝
    클릭기록, 의료기록, 유전자 분석 etc.

  • 수작업으로 프로그래밍 할 수 X
    자율운행 헬리콥터, 얼굴 인식, 스팸 필터 etc.

  • 개개인의 유저에게 최적화된 추천 알고리즘
    상품추천, 영화추천 (넷플릭스)
    → 고객의 평점, 구매 내역을 활용하여 취향에 맞는 컨텐츠 추천


💡 머신러닝의 구성요소

🔍데이터 준비

  • 훈련(학습)데이터
    모델(출력결과)를 만들기 위한 데이터
    학습데이터는 많을수록 Good! 영양분이라고 생각하자.

  • 검증데이터
    모델의 적합성을 검증하는 데이터
    전체 데이터에서 학습:검증 데이터를 8:2 / 7:3 / 6:4 비율로 나눔

  • 테스트데이터
    모델 작동 상태를 확인하는 데이터

🔍모델 표현방법

  • 의사결정트리
    기호주의 (= 모든 지식들을 기호로 표기)
    귀납적 추론, 철학과 심리학, 논리학에서 아이디어를 얻음

  • 신경망 기반
    연결주의 (= 연결망의 가중치 조절하여 출력값 얻음)
    두뇌를 분석하고 모방하여 신경과학과 물리학에 영감을 얻음
    ⭐딥러닝이 신경망 기반 알고리즘을 이용함

  • KNN, 서포트벡터머신(SVM)
    유추주의 (= 유사성을 근거로 추정하면서 학습)
    2차원 공간에서 두 점 간의 거리가 가까울수록 유사하다고 판단

  • 베이지안 모델
    학습이 확률 추론의 한 형태로 믿으며 통계학에 근거를 둠

  • 유전 알고리즘
    진화주의 (=유전학, 진화생물학에 근거를 둠)

  • 모델 앙상블
    5가지 알고리즘을 모두 조합하여 만든 기법

🔍모델 평가 방법

  • 에러의 제곱 (MSE)

  • 정확도
    전체 데이터 중 예측을 정확하게 한 데이터의 비율

  • 우도(가능도)
    log2(P(y))log_2(P(y))

  • 정밀도
    전체 중 실제 Positive인 데이터 비율

  • 재현률
    실제 Positive 중 Positive라고 예측한 데이터의 비율
    TP/TP=FNTP/TP=FN

  • 엔트로피
    실제 정답확률과 모델이 예측한 정답확률 간의 차이

0개의 댓글