머신러닝 기초

코린이·2022년 5월 12일
0

머신러닝 스터디 스타트

이전 제대로 하지 못했던 것에 대한 스트레스는 내려놓고 머신러닝에 대한 학습을 시작함

머신러닝

★회귀(regression) : 사진으로 나이 예측하는 예시

★분류(classification) : 다양한 데이터를 자료화. 나이별로 범위화 분류 클래스화

  • 이진분류 (0,1)
  • 다중분류 (여러가지)

학습방법
○지도학습(supervised learning) - 회귀/분류가 속함, 정답까지 알려줄 수 있는 상황의 데이터 정보화
○비지도학습(unsupervised learning) - 클러스터링, 차원감소법 / 라벨이나 클래스가 없을 때 정답값이 없을 때 교육법
○강화학습(reingrecement learning) - 게임등에 많이 사용 통해 지속적 교육 알파고가 대표적 사례
ㄴ에이전트(학습개체), 환경, 상태, 행동, 보상 의 요소가 있음

  • 머신러닝은 가설이 있어야함 > 그래서 초기 개발자들은 선형회귀로 모든 문제를 해결가능하다고 생각함(현재는 아님)

※선형회귀 (linear reregression) - 그래프로 그렸을 때 선형을 보여서 선형임
ㄴ 가설로 세운 선과 결과값의 차이 "평균제곱오차", '손실함수" 라고 부름
ㄴ 위 오차가 작을수록 잘 학습된 것
ㄴ H(x) = Wx + b

※다중선형회귀 (linear regression) - 선형회귀중에 입력값이 2개이상임
ㄴ Cost = 1/n∑(H(x₁,x₂,x₃...)-y)²

● 경사 하강법(gradient decent method) - 곡선이 그려짐, y(W)의 최소값을 구하기 위해 보통 사용
ㄴ 러닝 레이트 - 입력값간의 간격으로 작을수록 많이함 크면 빨리 되나 선명하지 못함
ㄴ 오버 슈팅 - 가끔 결과값이 무한대로 치솟아 틩기는 경우
ㄴ 코스트 미니멈 - 최소값을 구하는 중 아래로 오목하게 들어가는 지점, 국지적으로 있는 것은 로컬, 중에서 가장 낮은 것 글로벌

◎데이터 셋 - 아래와 같이 나누어 작업하길 권장
ㄴ 학습 데이터 셋(traing set) - 학습할 때 쓰이는 데이터
ㄴ 검증 테이터 셋(validation set) - 모델 검증용 데이터
ㄴ 테스트 데이터 셋)(test data set) - 실제 테스트 용 데이터


§§콜랩§§ (https://colab.research.google.com/)
블럭단위 코드 실행이 가능 / 개발환경을 모두 갖춘 곳 / 글카가 비싸진 요즘 15시간 무료 이용 가능
셀(cell) : 코드셀(결과 등 실행용 코드) / 텍스트셀(문서용 코드 마크다운식)이 있음

profile
갓 코딩 시작한 코린이

0개의 댓글