8장 머신러닝의 학습과 분류

bi_sz·2020년 6월 24일

AI

목록 보기

8/8

8-1 머신러닝의 개요

머신러닝 ( Machine Learning : ML )

경험을 통해 데이터를 기반으로 학습하고 예측하는 시스템으로,
이를 구현하기 위해 알고리즘을 연구하고 구축하는 기술.
프로그래머가 명시적으로 코딩하지 않고 자기 개선과 예제를 통해 학습할 수 있는 시스템.
입력과 출력 데이터의 상관관계를 학습하여 규칙을 생성한다.

머신러닝의 활용 분야

영상인식 : 문자인식, 물체인식
얼굴인식 : Facebook 에서의 얼굴인식
음성인식 : Bixby, Siri, Alexa 등
자연어 처리 : 자동 번역, 대화 분석
정보 검색 : 스팸 메일 필터링
검색 엔진 : 개인 맞춤식 추천 시스템
로보틱스 : 자율주행 자동차, 경로 탐색
자율주행 자동차, 스마트폰의 개인 비서, 헬스케어, 동영상 추천 리스트, 기상 예측

8-2 머신러닝의 학습 방법

머신러닝에서의 학습 방법

지도학습 (supervised learning )
-입력과 이에 대응하는 미리 알려진 출력을 연관시키는 관계를 학습하는 방법.
-입력과 출력 쌍이 데이터로 주어지는 경우 그들 사이의 대응 관계를 학습하게 된다.
비지도 학습 (unsupervised learning)
-출력 없이 또는 출력값을 알려주지 않고 주어진 입력만으로 스스로 모델을 구축하여 학습하는 방법.
-입력만 있고 출력 즉 레이블(label)이 없는 경우에 적용하며,
입력 사이의 규칙성 등을 스스로 찾아내는 것이 학습의 주요 목표이다.
강화 학습 ( reinforcement learing)
-주어진 입력에 대응하는 행동을 취하는 시스템에 대해 보상이 주어지게되며,
이러한 보상을 이용하여 학습하는 방법.
-지도 학습과 달리 주어진 입력에 대한 출력, 즉 정답 행동이 주어지지 않는다.
-주요 응용 분야 : 로봇, 게임, 내비게이션 등

지도 학습

각 데이터에 대해 학습할 수 있도록 필요한 표식을 붙이는데, 이것을 레이블(lable) 또는 태그(tag)라 한다.
즉 입력값에 대응하는 레이블이나 태그가 지정된 목표 출력값 정보를 사용하여 학습된다.

장점
-이전의 경험으로부터 데이터를 수집하거나 데이터 출력을 생성할 수 있다.
-경험을 사용하여성능 기준을 최적화할 수 있으며, 다양한 유형의 문제를 해결하는 데 도움이 된다.
단점
-반드시 출력에 레이블이 있는 데이터들을 사용해야 하는 제한점이 있다.
-일반적으로 많은 시간이 걸리는데, 특히 빅데이터의 경우에는 엄청난 시간이 걸릴 수도 있다.

회귀

하나의 종속 변수와 다른 독립 변수들 사이의 관계를 결정하는 통계적 측정.

선형 회귀 (linear regression ) - 직선 형태
종속 변수 Y의 결과를 설명하거나 예측하기 위해 하나의 독립 변수를 사용하므로 비교적 간단.
직선 y=a+bx 를 x에 대한 y 의 회귀직선 이라 한다.

회귀 분석 ( regression analysis )

변수 사이의 회귀에 대해 검정이나 추정을 하는 것
학습 데이터를 사용하여 하나의 출력값을 예측하는데, 산출물은 항상 확률론적 의미를 내포하고 있다.

회귀 분석 응용

-날씨에 대한 예측
-월별 판매액을 보고 다음 달 판매액 예측
-금융, 투자, 비즈니스적 가격 판단
-금값이나 원유 가격 예측
-주택 가격의 예측
-장단기 주가 예측
-원유 가격 추정 등

분류와 회귀의 차이점

분류는 일정한 기준에 따라 명백하게 구분 짓는 것이고,
회귀는 오차 제곱의 합을 최소화 하는 직선을 긋는 작업.

분류의 방법

Naive Bayes 분류기
-머신러닝의 한 분야로서 자료가 여러 가지 속성을 가지고 있을 때, 해당 자료를 어느 클래스에 넣어야 할지를 베이즈 정리를 활용하여 판단해주는 알고리즘이다.
-조건부 확률 모델이며, 모든 특성값은 서로 독립이라고 가정한다.
-장점 : 구축하기가 쉽고 대규모 데이터 세트에 매우 유용하다.
지도 학습 환경에서 비교적 효율적으로 훈련될 수 있다.
간단한 디자인과 단순한 가정에도 불구하고 복잡한 실제 상황에서 비교적 잘 작동한다.
-주가의 상승이나 하락이 예상되는 종목을 분류해내거나, 문서의 내용에 따라 문서를 분류할 수 있으며, 이메일의 경우 문서에 적힌 내용에 따라 스팸이나 정상 메일로 분류할 수 있다.
의사결정 트리 ( Decision Tree )
-어떤 항목에 대한 관측값과 목표값을 연결하는 예측 모델인데, 통상이진 트리를 사용한다.
-이진트리란 마치 나무를 거꾸로 세워놓은 모양인데,
최대 2가지의 판단을 하는 나무 모양의 구조이다.
-주택이나 자동차의 구입 비용, 스마트폰의 수, 연간 판매액 등의 추정에 활용
-대부분의 데이터 마이닝 소프트웨어 패키지는 결정 트리 알고리즘에 대한
라이브러리를 제공하므로 구현하기가 매우 쉽다.
Support Vector Machine )
-포트 벡터 머신은 머신러닝의 한 분야로서
배프닉이 19990년에 개발한 통계 학습 이론의 결과를 기반으로 한다.
-주어진 데이터를 2개의 영역으로 분류하는 이진 불류기인데,
기존 데이터를 바탕으로 새로운 데이터가 어느 영역에 속하는지를 판단하는 알고리즘이다.
-데이터를 하나의 경계선으로 구분하는데 그중 가장 큰 폭을 가진 경계선을 찾는 알고리즘.
-패턴인식과 자료 분석을 위한 지도 학습 모델로서
주로 분류, 회귀 분석, 멀티미디어 정보 검색, 생물 정보학 등에 사용
rest Neighbor ( K-NN )
-1950년대에 개발된 지도 학습 모델의 분류 기법으로서 '최근접 이웃 분류'라고도 불리는데,
각 학습 데이터는 자기가 속하는 레이블을 가지는 분류기의 역할을 한다.
-가장 가까운 것들과의 거리 계산으로 클래스가 분류되는데,
가장 간단한 머신러닝 알고리즘에 속한다.
-새로 들어오는 입력 데이터 주위에 있는 k개의 가장 가까운 이웃 데이터를 선택하여, 이들 이웃 데이터들의 클래스 중 다수결로 입력 데이터의 클래스를 결정하는 알고리즘.
( 다수결에서 결과가 나올 수 있도록 k 는 홀수가 되어야 한다 )
-장점 : 매우 간단하며 빠르고 효과적인 알고리즘,
어떤 데이터가 주어져도 해당 사례에 대한 유사성을 측정할 수 있다.

K-NN 응용 분야

-영화나 음악 추천에 대한 개인별 선호 예측
-수표에 적힌 광학 숫자와 글자인식
-얼굴인식과 같은 컴퓨터 비전
-유방암 등 질병의 진단
-유전자 데이터의 인식
-재정적인 위험성의 파악과 관리
-주식 시장의 예측

8-3 머신러닝의 비지도 학습

클러스터 ( cluster )

어떤 데이터 집합을 유사성에 따라 여러 개의 클래스나 그룹으로 나눌 때, 나누어진 클래스들

클러스터링 ( clustering )

-로 유사한 특성을 가진 여러 개의 그룹으로 묶는 기법인데, 같은 클러스터에 있는 점들은 다름 클러스터에 있는 점들보다 더 유사해야 한다.
-분류는 주어진 데이터를 좌표상에서 일정한 기준에 따라 직선으로 분류하는 것이지만,
클러스터링은 유사성에 따라 몇 개의 클래스터들로 묶는 것.

비지도 학습

-주어진 입력에 대응하는 출력 정보 없이 학습하는 것
-데이터를 분류할 수 있는 정보가 전혀 없이 패턴을 찾거나 데이터를 분류하려고 할 때 사용하는 방법.
-데이터에 대해 레이블을 전혀 사용하지 않는다.

비지도 학습의 응용 분야

-비슷한 성향의 고객을 그룹으로 묶기
-블로그에서 주제별로 구분하기
-유사한 꽃이나 동물들끼리 묶기
-네트워크상에서의 비정상적인 접근의 탐지

비지도 학습 방법

K-means 클러스터링 ( K-평균 군집화 )
-가장 간단하면서도 많이 쓰이는 클러스터링 방법 중 하나
-주어진 데이터를 알고리즘에 따라 서로 유사한 특성을 가진 k개의 그룹으로 묶는 클러스터링 방법
-장점 : 알고리즘이 비교적 간단하고 수행 속도가 빠르다
-단점 : 적절한 클러스터링의 개수 k와 최초로 지정하는 중심점들에 따라 결과가 달라질 수 있다.
-응용 : 통계, 전자상거래, 건강 관리, 패턴, 재무, 회사, 기술, 기상예보
추천 시스템 ( Recommender System )
-추천을 위해 연관 데이터들을 정의하는데 도움을 주는 클러스터링 방법
-사용자가 항목에 부여할 '등급'이나 '선호도'를 예측하는 정보 필터링의 일종으로서
주로 상업적 응용에 사용된다.
-사용자의 검색 경험 등의 정보를 파악하였다가, 적절한 광고를 내보낸다.
-응용 : 네이버나 구글 등 검색 엔진을 통해 검색한 책이나 동영상을 비롯하여
인기 있는 식당, 연구 관련 기사, 협력자, 금융 서비스 등의 추천
그 외에도 가우스 혼합 모델, 계층적 클러스터링, PCA/T-SNE 등

8-4 강화 학습

강화 학습

-어떤 환경에서 정의된 대리자인 에이전트가 어떤 상태에서 시행착오를 통해
보상을 최대화하는 행동이나 행동 순서를 선택하는 머신러닝의 한 영역.

강화 학습의 응용 분야

-통신망, 로봇 제어, 엘리베이터 제어, 체스와 바둑같은 게임

8-5 베이지안 네트워크와 은닉 마르코프 모델

베이즈의 정리 ( Bayesian theorem )

과거의 데이터들을 기반으로 미래를 예측하는 모델로서 통계학과 경제학에 널리 적용되고 있으며, 검색 엔진, 스팸 메일 차단, 금융 이론, 승부 예측, 기상 예측, 의료 분야, 인공지능 등에 폭넓게 활용.

베이지안 네트워크

-방향성 비순환 그래프를 통하여 그 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델이다.

은닉 마르코프 모델

-마르코프 모델의 일종으로,
시스템이 은닉된 상태와 관찰 가능한 결과의 두 가지 요소로 이루어진 확률형 모델

연습문제

진위 문제

1. 머신러닝은 인간의 학습 능력과 같은 기능을 실현하려는 기법과 분야이다. ( o )

2. 머신러닝을 흔히 컴퓨터 프로그램이 데이터로부터의 학습하는 과정이라고 말한다. ( o )

3. 지도 학습을 통해서는 자동차 번호판의 인식률을 높일 수 없다. ( x )

4. 비지도 학습에서는 데이터 학습을 위해 레이블이나 태그 표식을 붙인다. ( x )

5. 회귀 분석 기술은 학습 데이터를 사용하여 하나의 출력값을 예측하는데, 산출물은 항상 확률론적 의미를 내포하고 있다. ( o )

6. 분류는 일정한 기준에 따라 명백하게 구분 짓는 것이고, 회귀는 오차 제곱의 합을 최소화 하는 직선을 긋는 작업이다. ( o )

7. 머신러닝에서의 학습 방법 중 강화 학습은 포함되지 않는다. ( x )

8. 머신러닝은 건강과 관련된 헬스케어 분야에서도 중요한 역할을 담당한다. ( o )

9. 의사결정 트리는 이진 트리를 사용하는 관측값과 목표값을 연결하는 예측 모델이다. ( o )

10. 강화 학습은 보상이 주어지는 문제 해결에 효과적인 학습 방법이 아니다. ( x )

단답식 / 선택식 문제

1. ( 지도학습 )은 입력과 이에 대응하는 미리 알려진 출력을 연관시키는 관계를 학습하는 방법이다.

2. ( 비지도 ) 학습은 출력 없이 주어진 입력만으로 스스로 모델을 구축하여 학습하는 방법이다.

3. 스타크래프트와 바둑과 같은 게임에서는 보상을 위해 대부분 ( 강화 ) 학습이 사용된다.

4. ( 분류 )란 주어진 데이터 중 유사한 특성을 가진 것들끼리 묶어서 나누는 것을 말한다.

5. ( SVM ) 알고리즘은 데이터를 경계선으로 구분하는데 그 중 가장 큰 폭을 가진 경계선을 찾는 알고리즘이다.

6. ( 클러스터링 )이란 서로 유사한 특성을 가진 여러 개의 그룹으로 묶는 기법이다.

7. ( 비지도 ) 학습이란 주어진 입력에 대응하는 출력 정보 없이 학습하는 것을 말한다.

8. ( 베이즈 )의 정리는 과거의 데이터들을 기반으로 미래를 예측하는 모델로 활용된다.

9. 다음 중 머신러닝과 별로 관계가 없는 것은? ( 1 )

1.프로그램을 명시적으로만 작성 2.전통적인 프로그래밍 개념과는 다름
3.인공지능에 속하는 부분집합 4.데이터로부터 학습하여 지식을 획득

10. 다음 중 지도 학습의 장점에 속하는 것은? ( 2 )

1.레이블이 있는 데이터 사용해야 함 2.경험을 사용하여 성능 기준을 최적화
3.일반적으로 많은 시간이 걸림 4.제한된 유형의 문제를 해결

주관식 문제

1. 머신러닝의 주요 종류들을 말하시오.

신경망(Neural Network):생물의 신경 네트워크 구조와 기능을 모방한 모델
클러스터링(Clustering):주어진 데이터를 클리스터라는 부분 집합들로 분리하는 것
분류(Classification):주어진 데이터를 비슷한 것들끼리 분류하는 것
의사결정 트리(Decision Tree):트리 구조 형태의 예측 모델로 의사를 결정하는 모델
나이브 베이즈(Naive Bayes):베이즈 정리를 바탕으로 한 조건부 확률 모델 분류

2. 분류의 응용 예는 매우 다양한데 그 중 몇 가지를 적으시오.

-사진으로 남자와 여자의 구별
-개와 고양이의 구분
-스팸 메일과 정상 메일 구분
-0에서 9까지의 숫자의 구분
-알파벳과 한글 문자 등의 구분
-편지봉투의 손으로 쓴 주소 판별
-카드 부정 사용 감지
-의료 영상에서 종양의 존재 여부 판단

3. 회귀의 개념을 설명하시오.