# Supervised Learning

21개의 포스트
post-thumbnail

[Supervised Learning] K-Nearest Neighbour Algorithm (K-NN)

K-Nearest Neighbours(K-NN) 알고리즘은 머신러닝 분야에서 사용되는 학습 알고리즘 중 하나입니다. k-NN은 classification 혹은 regression 문제를 해결하는데 사용될 수 있습니다. K-NN 개념 다음과 같이 파란색 네모, 빨간색 세모가 map에 있을 때, 새로운 데이터 초록색 동그라미가 어떤 카테고리로 구분 되어야하는지 알고싶습니다. 과연 파란색 네모로 구분해야할까요? 아니면, 빨간색 세모로 구분해야할까요? K-NN이란 데이터로부터 거리가 가까운 K개의 다른 데이터의 레이블을 참조하는 거리기반 알고리즘입니다. 다음 위의 예시에서, 만약 K가 2라고 했을 때, 가까운 2개의 데이터의 레이블은 빨간색 세모이기 때문에, 빨간색 세

2023년 9월 10일
·
0개의 댓글
·

Low-labeled Learning / Supervised Learning / Unsupervised Learning

딥러닝에서는 $f: X -> Y$ 를 위한 Function 을 학습하게 되는데, 이 때 올바른 "학습" 을 위한 표본 데이터가 필요합니다. 하지만 딥러닝의 학습에 필요한 다량의 data 를 모두 색인 (annotate) 하기에는 여러모로 비용이 많이 발생하지요. (시간, 비용) 실제로 색인된 다량의 데이터를 찾기도 쉽지 않고요. 따라서, 딥러닝에서는 라벨링이 되지 않은 unlabeled data 를 사용해서 모델을 어떻게 잘 학습 시킬 수 있을지에 대한 연구가 활발히 이루어져왔는데요, Unlabeled data 는 인터넷 상에서도 얻기가 훨씬 쉽다는 점을 생각하면 당연한거겠지요? 이런 관점에서 많이 언급되는 Supervised Learning, Unsupervised Learning, Low-labeled Learning 용어와 기본 개념들에 대해 알아보겠습니다. Supervised Learning Training Input : {X, Y} Learn

2023년 7월 30일
·
1개의 댓글
·
post-thumbnail

3-1. Classification

본 글은 K-MOOC의 인공지능 수학 고급(Advanced Mathematics for AI) 강의를 듣고 요약한 글입니다. > 춘식님께 무한한 감사를 표합니다. Artificial Intelligence 인공지능이란 컴퓨터가 지능을 갖고 있는 것처럼 만드는 것을 말한다. Machine Learning Traditional: 수동으로 규칙을 넣어 프로그램을 작성. Machine Learning: 데이터들을 통해 컴퓨터가 직접 규칙을 학습하도록 작성 1. Supervised Learning input과 output의 매핑을 학습시킨다 예: classification, regression 2. Unsupervised Learning

2023년 3월 23일
·
2개의 댓글
·
post-thumbnail

Inductive & Transductive Learning 차이점

🤔 이번 시간에는 Inductive Learning과 Transductive Learning의 차이점에 대해 소개를 해보려고 한다. Inductive Learning을 직역하면 귀납적 학습, Transductive Learning은 ... 직역조차 애매하다. 단어만 보고 그 개념을 유추하기 어려운 이 두 단어는 아마 영어 원서로 된 책이나 자료로 머신 러닝을 공부하다보면 자주 보았을 것이다. 하지만 논문에서 조차도 두 개념을 직관적으로 설명해주지 않는다. 그래서 이번 시간에는 머신러닝에서 두 학습 방식에 대한 개념과 그 차이에 대해 쉽게 소개해보려고 한다. 🚬 글 읽기 귀찮아도 아래 3번에는 그림 예시가 나오니... 화이팅... 😉 📝 단어 정의 (Referenced by Wikipedia)   📌 Transduction > In logic, statistical inference, and supervised learn

2023년 2월 5일
·
0개의 댓글
·

선형 회귀의 잠재적 문제

선형회귀모델을 다은과 같은 특정 자료에 적합할 때 많은 문제가 발생한다. 반응변수-설명변수 상관관계의 비선형성 오차항들의 상관성 오차항의 상수가 아닌 분산 이상치 레버리지가 높은(영향력이 큰) 관측치 공선성 1. 데이터의 비선형성 선형회귀모델의 기본 가정은 반응변수와 설명변수 사이에 직선(선형의) 상관관계가 있다는 것이다. 이는 즉, 실제 데이터가 반응변수와 설명변수 사이에서 직선(선형의) 상관관계를 보이지 않는다면, 선형회귀모델을 통해 얻은 모든 결론에 대해 신뢰할 수 없다는 점이다. 우리는 실제 데이터가 비선형성을 나타내는지 보기 위해 아래와 같은 테크닉을 취할 수 있다. 잔차 그래프 잔차 그래프는 비선형성을 식별하는 데 유용하다. <span style="color: #2D3748; background

2023년 1월 21일
·
0개의 댓글
·
post-thumbnail

[기업연계프로젝트]주요 기술 정리

Supervised Learning : 지도학습 문제와 정답을 같이 학습시켜서 머신러닝을 진행하는 기법. Input data와 Label( 또는 class) 정보를 입력하여 학습하고, 새로운 데이터가 들어오면 label을 예측합니다. 주가하락세 전환 팩터의 경우, 크롤링한 feature(문제)와 주가하락세 여부(정답)를 학습시켜서 알아보고 싶은 팩터의 feature를 넣었을 때 주가하락세인지 아닌지를 파악하는 지도 학습이 필요합니다. Dimension Reduction : 차원 축소 데이터의 크기(row 수)는 같으나 Feature(column수)가 많아지게 되면 적은 데이터로 공간(차원)을 표현하게 됩니다. 이 경우 과적합(Overfitting) 이 발생할 수 있는데 이러한 문제를 차원의 저주라고 합니다. <img src="https://velog.velcdn.com/images/

2022년 11월 10일
·
0개의 댓글
·

🦾 cs4780

01 🦸🏻‍♂️ Supervised Learning 04 🎲 MLE & MAP

2022년 9월 13일
·
0개의 댓글
·
post-thumbnail

[1주차] Supervised VS Unsupervised Learning

모든 내용은 앤드루 응 교수님의 강의를 듣고 필자가 정리를 위해서 작성하는 것입니다. 오류가 있을 경우 댓글로 알려주세요. Supervised Learning Unsupervised Learning Recommenders Systems Reinforcement Learning 머신러닝은 크게 두 가지 유형으로 나뉘어집니다. Supervised Learning 과 Unsupervised Learning으로 나뉘어집니다. 앤드루 응 교수님의 기계학습 특화 과정의 Course 1, 2에서 Supervised Learning과 Unsupervised Learning에 대하여 배우게 되고, Course 3에서 Recommnders Systems와 Reinforcement Learning에 대하여 배우게 됩니다. 1. Supervised Learning supervised learning은 input X와 output y과 ma

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

Machine Learning의 Task

machine learning은 여러 가지 종류의 task가 있지만 오늘은 classification, clustering, regression 3가지의 task에 대해서 정의와 차이를 간략하게 서술해 보겠다. > Classification(분류) 목적 output이 category(범주형)의 경우에 사용되는 task이며, 크게 binary classification(이진 분류)와 multiclass classification(다중 분류)가 있다. binary classification(이진 분류)의 경우 [0 or 1]처럼 [참(True) or 거짓(False)]의 값이 output이며, multiclass classification(다중 분류)의 경우 3개 이상의 output이 필요할 때 사용된다. > Clustering(군집) 대부분의 일상생활에서의 data는 label이 되어 있지 않아, unsupervised learning, 또는 simesupervise

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

Machine Learning의 구분

Supervised Learning(지도 학습) supervised learning(지도 학습)은 training data set(훈련 데이터 세트) 내에 label(레이블)이 된 target(타겟) 값이 있다. classification(분류)이 전형적인 supervised learning(지도 학습) 작업이며, 또 다른 전형적인 작업은 predictor variable(예측 변수)라 부르는 feature(특성)를 사용해 target(타겟) 수치를 예측하는 regression(회귀) 있다. supervised learning(지도 학습)에서 사용하는 알고리즘은 아래와 같다 Linear Regression(선형 회귀) Lasso (L1 Regularization, L1 정규화) Ridge (L2 Regularization, L2 정규화) Logistic Regression(로지스틱 회귀) Support Vector Machines(SVM,

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

Supervised Learning - 6

해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다. Supervised Learning의 마지막 강의를 수강하고 글을 작성한다. 이번에는 supervised learning task에서 사용하고 있거나 개발한 알고리즘의 간단한 확장으로 모델의 성능을 올릴 수 있는 간단한 방법인 Ensemble Learning을 알아본다. ensemble learning은 머신러닝에서 알고리즘의 종류에 상관없이 서로 다르거나 같은 메커니즘으로 동작하는 다양한 머신러닝을 묶어 함께 사용하는 방식으로, 여러 모델을 모아 예측 모델의 집합으로 사용한다. 이 때 하나의 학습 모델을 expert로 표현하며, 이를

2022년 7월 13일
·
0개의 댓글
·
post-thumbnail

Supervised Learning - 5

해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다. 이번 시간에는 대표적인 Classification 모델 몇가지와 관련 지식을 알아본다. linear classification의 경우 hyper plane을 구성하는 모델의 파라미터가 w일때, hyper plane의 normal한 방향으로 hyperparameter w vector를 구성한다. 하지만 위와 같은 상황에서 서로 다른 hyper plane을 그렸을 떄 그림 속의 데이터 샘플들에 대해서는 비슷한 loss를 제공하게 될 것이지만, 실제 세상의 데이터 샘플에서는 보이지 않는 다양한 샘플이 존재하여 서로 다른 `

2022년 7월 12일
·
0개의 댓글
·
post-thumbnail

Supervised Learning - 4

해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다 오늘은, 모델의 출력이 이산 값을 가지는 Classification을 알아본다. Classification은 입력의 category를 결정하고 분류하기 위해 데이터셋에서 입력과 정답으로 구성된 label이 있는 데이터 쌍을 사용한다. Linear Classification linear classification은 hyper plane을 구해 데이터셋에

2022년 7월 11일
·
0개의 댓글
·
post-thumbnail

Supervised Learning - 3

해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다. 이번에는 Gradient Descent 방법의 문제점을 보완한 기법들을 살펴본다. 위 그림은 gradient descent의 학습률 α에 따른 학습 과정을 보인다. 위에서 부터 적당한 학습률, 작은 학습률, 큰 학습률이다. 적당한 α : 적절한 시간 내에 error를 최소화하는 지점을 찾음 작은 α : 오랜 시간이 걸려 error가 최소화되는 지점을 찾지만, 안정적으로 학습을 진행 큰 α : 시간과 관계없이 error가 줄지않고, 오히려 늘어나는 형상을 보임 Batch Gradient Descent

2022년 7월 9일
·
0개의 댓글
·
post-thumbnail

Supervised Learning - 2

해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/입니다. 이번에는, 모델의 출력이 연속적인 값으로 나오는 Regression에 대해 알아본다. Linear Models 아래 그림은 수입에 따른 행복도를 조사한 결과 그래프이다. 많은 사람들이 수입이 증가함에 따라 행복도 증가할 것으로 예상하지만, 실제로는 그렇지 않다. 선형모델에서의 Hypothesis set H는 input feature와 model parameter의 `l

2022년 7월 9일
·
0개의 댓글
·
post-thumbnail

Supervised Learning - 1

해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/입니다. 7월 7일, 본격적인 인공지능 수업을 듣었다. 사람이 위와 같은 사진을 보고, 이 동물이 어떤 동물이냐고 물으면 99.999%의 사람들은 '사자'라고 금방 답이 나올 것이다. 아마 어려서부터 '사자'라는 동물에 대한 경험이 쌓여왔기 때문일 것이다. 하지만, 인공지능은 이 사진을 보고 단번에 '사자' 라고 답하기는 어렵다. 2~3살 어린아이처럼 '사자'에 대한 특성을 전혀 모르고, 관련된 경험도 없기 때문이다. 기계 학습 (Machine Learning)은 특정 데이터로부터 내제된 패턴을 학습하는 과정이다. Supervised Lear

2022년 7월 7일
·
0개의 댓글
·
post-thumbnail

Supervised Learning

Supervised Learning 컴퓨터에게 입력과 출력을 주고, 입출력 간 관계를 학습하여 새로운 입력에 대해 적절한 출력을 내도록 하는 기계학습의 한 분야 Input : feature(vector) Output : label 범주형 변수(classification), 연속형 변수(regression) Overfitting 지도학습 모델은 학습 데이터를 분류/예측하는 수준 Generalisation : 학습에 사용되지 않은 데이터도 정확히 분류/예측하는 경우 Overfitting : 모델이 너무 복잡해서 학습 데이터만 정확히 분류/예측하는 경우 Underfitting : 모델이 너무 단순해서 학습/검증 데이터 모두에 대해서 분류/예측 못하는 경우 ![](ht

2022년 6월 21일
·
0개의 댓글
·
post-thumbnail

지도 학습 (Supervised Learning)

훈련 데이터에 레이블(label)이라는 답 포함 레이블 대신에 타깃(target)이란 표현도 사용된다 분류(classfication) 데이터의 특성을 사용하여 분류 예제: 소속 정보, 특정 단어 포함 여부 등을 판단하여 스팸메일(레이블, 타깃)로 분류 회귀(regression) 데이터의 특성을 사용하여 수치를 예측 예제: 주행거리, 연식, 브랜드등을 판단하여 중고차가격(레이블, 타깃)을 예측 중요한 지도학습 알고리즘 k-최근접 이웃(k-NNs) 선형 회귀(linear re

2022년 6월 1일
·
0개의 댓글
·
post-thumbnail

[CS229 복습노트 - 1] Machine Learning Intro, Supervised Learning, Unsupervised Learning

Intro. 시리즈의 첫 글이기에 서론을 좀 적어두겠다. 진로에 대해 수많은 고민을 했었고, 다시 결국엔 Machine Learning이라는 학문으로 돌아온 만큼, 늦은 만큼, 더 열심히 시작할 계획이다. Machine Learning을 다시 처음부터 시작한다는 마음으로, Andrew Ng 교수님의 Machine Learning 강의를 선택했다. 작년 이맘때 공부했던 내용과 매우 비슷할 것으로 예상하기 때문에 최대한 빠르게 정리해 나갈 것이다. 잡설이 길어지면 끝이 없기에 이제 바로 본론으로 들어가겠다. 💾 Machine Learning Intro. 크게 중요하지 않은 부분이기 때문에 강의의 내용을 인용하여 빠르게 넘어가겠다. Machine Learning에서 두가지 정의가 있었다. 📌 Machine Learning 첫 번째 정의 > "The field of study that gives computers the abili

2022년 2월 22일
·
0개의 댓글
·
post-thumbnail

Ridge Regression

[1] Ridge regression Ridge regression은 모델학습에 있어서 편향(bias)을 조금 더하고, 분산(variance)을 줄이는 방법으로 *정규화(regularization)을 수행한다. 모델의 편향 에러를 더하고, 분산을 줄이는 방식으로 일반화를 유도하는 방법 다중회귀선을 훈련데이터에 덜 적합되도록 만듦으로써 더 좋은 결과의 모델을 만듦 과적합을 줄이기 위해 사용 >정규화 모델을 변형하여 과적합을 완화해 일반화 성능을 높여주기 위한 기법 >$\beta{ridge}$: $argmin[\sum{i=1}^n(yi - \beta0 - \beta1x{i1}-\dotsc-\betapx{ip})^2 + \lambda\sum{j=1}^p\betaj^2]$ > n = the number of sample p = the number of feature $\lambda$ = alpha( = lambda, re

2021년 9월 1일
·
0개의 댓글
·