제조사, 모델명, 제조 연월, 화면 크기, CPU 코어, 내장메모리, 램(RAM), 색상, 상태(파본여부, 기스)Supervised Learning : 지도 학습정답이 있는 데이터를 통해데이터 분류 / 올바른 결과 예측Unsupervised Learning : 비지도
정답이 있는 데이터를 통해데이터 분류 / 올바른 결과 예측Regression (회귀) : 연속형 변수Classification (분류) : 범주형 변수변수들 간의 상관관계를 찾는 것, 연속적인(continuous) 데이터로부터 결과를 예측예측 결과가 숫자일 때(예) 근
공부 시간에 따른 시험 점수를 나타내는 최적의 직선은 3번.X : Independent variable독립 변수 (원인) = 입력 변수 (feature)Y : Dependent variable종속 변수 (결과) = 출력 변수 (target, label)잔차 : 실제 값
잔차 제곱의 합최소제곱법 : 잔차 제곱의 합을 최소로 찾는 방법이상값에 취약한 단점이 존재시험 점수에 영향을 미치는 것은 공부 시간 이외의 많은 요인들이 존재한다.이런 상황에서, 최소제곱법을 사용한다면 많은 독립 변수가 존재할 때, 독립 변수가 전체 데이터 수에 비례하
회귀는 연속형 변수독립변수에 문자형 변수가 있을 때, 숫자로 변환 시켜줘야 한다.원-핫 인코딩을 이용하여 변환시켜줌표현하고 싶은 값만 1로, 나머지는 모두 0으로Home + Library + Cafe = 1독립 변수들 간에 서로 강한 상관관계를 가지면서 회귀계수 추정의
MAE (Mean Absolute Error) : 실제 값과 예측 값 차이의 절대값들의 평균 실제 값과 예측 값 사이의 차이 = 12.8 절대값을 통해서, 양수와 음수 간의 상쇄되는 문제를 해결 할 수 있다.MSE (Mean Squared Error) : 실제 값과
앞에서 배웠던 선형 회귀로 데이터를 가장 잘 표현하는 직선을 일차 방정식 형태로 구할 수 있다. 그러나, 일상 생활에서는 다소 복잡한 데이터들이 많이 있다.ex) 기업의 성장 단계 (초기에 이익이 없음), 주택 전기 요금 (누진세) => 위의 예들을 일차 방정식으
지도 학습 (Supervised Learning) 정답이 있는 데이터를 통해 데이터 분류 / 올바른 결과 예측 지도 학습에는 Regression(회귀 - 연속형 변수)와 Classification(분류 - 범주형 변수)로 나뉘는데, Logistic Regress
정답이 없는 데이터를 통해데이터의 유의미한 패턴 / 구조 발견Clustering (군집화)유사한 특징을 가지는 데이터들을 그룹화에) 고객 세분화, 소셜 네트워크 분석, 기사 그룹 분류, ...Classification(분류 -> 지도학습) 과는 성격이 다르다
데이터를 K개의 클러스터(그룹)로 군집화하는 알고리즘, 각 데이터로부터 이들이 속한 클러스터의 중심점까지의 평균 거리를 계산중심점 : Centroid랜덤 좌표 설정이 제일 민감한 문제. 값이 천차만별로 변경될 수 있다 => 원치않는 결과 초래각 Centroid 간의 거
K 변화에 따른 중심점까지의 평균 거리 비교경사가 완만해지는 지점의 K 선정 (Optimal K = 3)너무 많지 않은 cluster의 개수이면서, 평균 거리의 값은 어느 정도 작은 상태
데이터 유사도를 비교하기 위한, 몇 가지 방법코사인은 각도가 작을수록 실제 값이 커진다.따라서, 코사인 유사도에서도 각도가 작을수록 유사도가 더 높다.영역 안의 있는 값들은 유사도가 상당히 높은 값들이다.