# sklearn

90개의 포스트
post-thumbnail

선형회귀(보스턴 주택데이터)

큰일 났다. 한 게 하나도 없는 거 같은데 벌써 방학이 한 달도 안 남았다..... 그건 그렇고 요즘 너무 더워서 밖에 나가기 너무너무 싫다. 하지만 말복에는 꼭 나갈 것이다. 삼계탕이 먹고 싶다. 끄덕.

2022년 7월 28일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - 고객 세그먼테이션 구현 실습

데이터 출처: https://archive.ics.uci.edu/ml/datasets/online+retail고객 세그먼테이션: 다양한 기준으로 고객을 분류하는 기법사는 지역, 결혼 여부, 성별, 소득, 직업, 월별 사용액, 최근 구매 상품, 구매 주기,

2022년 7월 21일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - DBSCAN

DBSCAN, Density Based Spatial Clustering of Applications with Noise특정 공간 내에 데이터 밀도 차이 기반 알고리즘으로 하고 있어서 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행여러 데이터에

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - Gaussian Mixture Model

Gaussian Mixture Model, Mixture of Gaussian, GMM, MoG거리기반 K-Means의 문제점\-> K-Means는 특정 중심점을 기반으로 거리적으로 퍼져있는 데이터 세트에 군집화를 적용하면 효율적인데 그 반대는 비효율적이다.예를 들어보

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - Mean Shift Clustering

Mean Shift Clustering 개요 K-Means랑 유사한데 차이점은 K-means는 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, Mean Shift는 중심을 데이터가 모여있는 밀도가 가장 높은 곳으로 이동 시킴 특징 KDE (Kernel

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - 실루엣 분석 (Silhouette Analysis)

실루엣 분석: 각 군집 간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타내는 것 다른 방법으로는 Elbow Method가 있음 (Inertia)실루엣 계수 (Silhouette Coefficient)각각의 샘플마다 계산$a$: 나와 나와 같은 군집에 속한 샘플들 사이

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - K-Means Clustering

군집화 개요 Clustering 데이터 포인트들을 별개의 군집으로 그룹화 하는 것을 의미 유사성이 높은 데이터들을 동일한 그룹으로 분류하고 서로 다른 군집들이 상이하게 그룹화 군집화 활용 분야 고객, 마켓, 브랜드, 사회 경제 활동 세분화 이미지 검출, 세분화,

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 차원 축소 - SVD (Singular Value Decomposition)

SVD, Singular Value Decomposition, 특이값 분해앞에서 배운 고윳값 분해와 비교해보자고윳값 분해$$C = P\\Sigma P^T $$$$C = \\left\\begin{matrix} e_1 & e_2 & ... & e_n\\end{matrix}

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 차원 축소 - LDA (Linear Discriminant Analysis)

LDA, Linear Discriminant Analysis, 선형 판별 분석PCA와 매우 유사함PCA처럼 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 차원 축소 - PCA 실습

scikit-learn은 sklearn.decomposition.PCA 클래스 제공n_componets: PCA 축의 개수 (변환 차원)PCA 이전에 입력 데이터의 개별 Feature에 대해 스케일링 필수! PCA는 여러 Feature들의 값을 연산해야 하므로, Fea

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 캐글 경연 주택 가격 예측

평가지표로는 RMSLE를 사용하자. $$ RMSLE = \sqrt{\frac{1}{n}\sum{i=1}^N(log(Yi+1)-log(\hat{Y_i}+1))^2} $$ 데이터 전처리 > 데이터 탐색 후 전처리를 진행하자 여러가지 전처리를 해보기 위해 원본 데이터는

2022년 7월 18일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 자전거 대여 수요 예측

Bike Sharing Demand 데이터 데이터 출처: https://www.kaggle.com/c/bike-sharing-demand 데이터 가공과 사전 작업 >칼럼 설명 datetime: hourly date + timestamp season: 1 = 봄,

2022년 7월 18일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 회귀 트리 (Regression Tree)

scikit-learn의 결정 트리와 결정 트리 기반의 앙상블 알고리즘은 분류 말고 회귀도 가능함트리가 CART (Classification and Regression Tree)를 기반으로 만들어졌기 때문CART 회귀 트리는 분류와 유사하게 분할, 최종 분할이 완료된

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 로지스틱 회귀 (Logistic Regression)

로지스틱 회귀 개요 로지스틱 회귀 개요 로지스틱 회귀는 이름은 회귀인데, 분류에 사용됨 종속변수가 범주형 변수일 때 사용하는 것이 로지스틱 회귀 시그모이드 함수 우선 시그모이드 함수를 먼저 알아보자 (로지스틱 함수라고도 함) $$ Sigmoid(x) = \fr

2022년 7월 17일
·
0개의 댓글
·

[ML] 회귀 - 선형 회귀를 위한 데이터 변환

선형 회귀 모델은 일반적으로 Feature와 Target 간 선형 관계가 있다고 가정선형 회귀 모델은 Feature와 Target의 분포가 정규분포인 것을 선호 (특히 Target)앞에서 한 보스톤 데이터 그대로 사용하자Ridge Regression에 대해 다양한 데이

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 규제 선형 회귀 (Regularized Linear Regression)

우리가 지금까지 다룬 회귀 모델들은 결국 Loss 값인 RSS를 최소화 하는 것이었음$$Min(\\,RSS(W)\\,)$$그런데, 앞에 다항 회귀의 차수가 15일 때를 보면 회귀계수가 매우 크게 설정됨\-> 과적합 발생\-> 형편없는 평가 데이터 예측 성능따라서, 데이

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

[빅 리더 AI] 머신러닝 1~4일차

빅데이터 분석 절차1\. 기획 (위험성 분석)2\. 데이터 수집3\. 데이터 전처리4\. 모델 선택5\. 평가 및 적용위험성 분석예측에 실패했을 때의 위험성을 그 분야 전문가와 논의하는 것모델의 정확도보통 95% 이상이면 상용화할만 하다고 판단함데이터 확인결측치 제거

2022년 7월 14일
·
1개의 댓글
·
post-thumbnail

[ML] 회귀 - 다항 회귀 (Polynomial Regression)

다항 회귀란?\-> 회귀식의 독립변수가 2차, 3차 방정식 같은 다항식으로 표현되는 것예: $y = w_0 + w_1x_1 + w_2x_2 + w_3x_1x_2 + w4\*x_1^2$비선형 회귀와 헷갈리지 말자!비선형 회귀 예: $y = w_1x^{w2}$sicikit

2022년 7월 14일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 선형 회귀 (Linear Regression)

scikit-learn의 LinearRegression 클래스를 알아보자LinearRegression 클래스예측값과 실제값의 RSS를 최소화하는 OLS 추정 방식으로 구현한 클래스fit() 으로 X, y 배열을 입력 받음회귀 계수인 $W$를 coef\_에 저장절편(bi

2022년 7월 14일
·
0개의 댓글
·

[ML] 회귀 - 회귀 (Regression) 개요

통계학에서의 회귀분석: 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계 기법머신러닝에서의 회귀: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭$Y$: 종속변수$X_1, X_2, ..., X_n$: 독립변수$W_1,

2022년 7월 14일
·
0개의 댓글
·