[수업 4째주 10일차] 머신러닝-1

유유·2022년 4월 4일

대구 A.I. 스쿨

목록 보기

8/90

1. 학습내용

본격적으로 빅데이터 내용을 배웠다. 자세한 내용은 내일 강사님께서 올려주시는 ppt를 참조해 더 자세하게 쓸 예정이다.
일단 AI라는 용어 자체는 1950년대 존 매카시라는 사람이 주장한 용어에서 부터 시작했다고 한다.
그때는 하나의 개념이였고, 점차 머신러닝이 70년대에 등장하고 2010년도에 딥러닝이 등장하고 이후까지 점점 구체화 되었다고.

이후로 배운건 머신러닝에 대한 개념과 머신러닝을 이루는 알고리즘 등을 배웠다.

2. 어려웠던 점 및 해결 방안

어려웠던건 알고리즘 중에 지도학습 안에
Regression(회귀)와 Classification(분류)에 대한 것이였다. 그것에 대한 정의도 알겠는데
어떤 데이터에 어떤 알고리즘이 알맞는지에 대한 질문에 저 둘을 비교해 가장 맞는 걸 고르는게 햇갈렸다.
어떤 값에 대한 평균치를 도출해 내는 것을 회귀 알고리즘을 쓴다는데.. 인터넷을 찾아보고 정의를 살펴봤지만 내일 교수님께서 주시는 자료를 한번 더 참고해 봐야 알것 같았다.
대충 인터넷에서 찾은 건 이러했다.

-회귀

회귀분석은 데이터 변수들간에 함수관계를 파악하여 통계적 추론을 하는 기술이다.
좀더 쉽게 설명하자면, 독립변수에 대한 종속변수값의 평균을 구하는 방법입니다.

h() 가 위에서 말한 조건에 따른 평균을 구하는 함수이며 우리는 이것을 보통 ‘회귀 모델’이라고 부릅니다.

이 함수는 어떤 조건(x1, x2, x3, …)이 주어지면 각 조건의 영향력(beta1, beta2, beta3, …)을 고려하여 해당 조건에서의 평균값을 계산해 주는 것인데, 뒤에 붙는 e 는 ‘오차항’을 의미한다. 측정상의 오차나 모든 정보를 파악할 수 없는 점 등 다양한 현실적인 한계로 인해 발생하는 불확실성이 여기에 포함된다. 이런 잡음은 이론적으로 보면 평균이 0이고 분산이 일정한 정규 분포를 띄는 성질이 있다.

회귀 분석을 한다는 것은 이 h() 함수가 무엇인지를 찾는 과정을 의미한다.

시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용될 수 있다.

그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다.

-분류

말 그대로 분류를 뜻하는 Classification은 Supervised learning 지도학습의 일종으로 기존에 존재하는 데이터의 Category 관계를 파악하고, 새롭게 관측된 데이터의 Category를 스스로 판별하는 과정이다.

예를 들어 문자를 판별하여, 스팸 보관함으로 분류하는것과 같은 단일분류와 , 수능 점수가 몇 등급에 해당하는지 판별하는 종류의 다중분류가 있다. 다중분류는 비지도학습의 Clustering과 비슷하지만, 가장 큰 차이점은 Category의 도메인이 정의되있는가 그렇지 않은가이다.

참고자료: https://bangu4.tistory.com/100

3. 학습소감

생소한 내용이라서 처음엔 정의만 듣고 그렇구나 했는데, 막상 적용해서 생각하려니 완전히 이해하지 못했다는 생각만 들었다. 첫 수업이고 아직 설명해 주시지 못한 개념들도 꽤 많았기 때문에 관련 자료가 올라온다면 좀더 복습해 공부해 볼 것이다.

오늘 내용은 내일 자료를 보고 보충해서 내용을 채우려 한다.

유유

이전 포스트

[수업 3째주 9일차] Python-4

다음 포스트