kNN은 데이터를 분류하고 새로운 데이터 포인트의 카테고리를 결정할 때 K개의 가장 가까운 포인트를 선점하고, 그중 가장 많이 선택된 포인트의 카테고리로 새로운 데이터를 분류하는 방법인데, 거리를 측정할 때 '유클리디안 거리' 계산법을 사용함.예를 들면, k = 3,
의사결정트리는 일련의 분류 규칙을 통해 데이터를 분류, 회귀하는 지도학습 모델 중 하나이다. 특정기준(질문)에 따라 데이터를 구분하는 모델이다. 스무고갤ㄹ 결정트리에서 질문이나 정답을 노드(Node)라고 부르고 맨 처음 분류 기준을 Root Node라고 하고, 중간 분
회귀 분석은 둘 이상의 변수 간의 관계를 보여주는 통계적 방법이다. 일반적으로 그래프로 표현되는데, 이 방법은 종속 변수와 독립 변수 간의 관계성을 기반으로 만들어짐. --> 넓은 의미로는 독립변수(x)로 종속변수(y)를 예측하는 것을 의미한다. 독립변수와 종속변수
퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력한다.이것은 프랑크 로젠블라트(Frank Rosenblatt)가 1957년에 고안한 알고리즘으로 고대 화석과도 같은 알고리즘이다. 그런데 이것을 지금 우리가 배우는 이유는 퍼셉트론이 신경망(딥러닝)의 기원이 되는
데이콘에서 데이콘 입문하는데 처음으로 나오는 대회(?), 프로젝트이다. 그래서 천천히 해볼려고 한다. 데이콘 링크 : https://dacon.io/competitions/open/235536/overview/description링크를 들어가서 데이터 파일들을
원핫 인코딩은 가변수라고도 하는데, 이것은 사람이 이해할 수 있는 데이터를 컴퓨터에게 주입시키기 위한 가장 기본적인 방법이다. 이 기술은 데이터를 수많은 0과 한개의 1의 값으로 데이터를 구별하는 인코딩이다. 파이썬으로 원핫 인코딩으로 구현하면 다음과 같다.다음과 같이
이제까지 데이터 전처리를 했으니 모델링을 할것이다. 사용하는 모델은 RandomForestRegressor이다. 일단 우리가 예측할 것은 관객수이기 때문에 관객수를 없앤다.그리고 모델을 불러온다.그런다음 이제 피팅 시킨다.그리고 test와 예측을 한다.이것을 제출 파일
데이터의 특성에 따라 선형 회귀(Linear Regression)와 비선형 회귀(non-Linear Regression)으로 나눌 수 있다.선형(왼쪽)와 비선형(오른쪽)둘 이상의 변수 간의 관계를 보여주는 통계적 방법어떤 변수들이 한 변수의 원인이 되는지 분석하는 방법
회귀 분석 둘 이상의 변수 간의 관계를 보여주는 통계적 방법 로지스틱 회귀 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측학고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘 어떤 사건(event)
GPU란 GPU는 Graphics Processing Unit의 약자로, 컴퓨터 그래픽을 처리하는 장치 그래픽 카드를 구성하는 가장 중요한 핵심 요소 모니터의 픽셀들의 RGB 값, 색상, 밝기 정도를 계산 딥러닝에서 왜 GPU? 딥러닝에서는 CPU보단 GPU를 사용을
교차 검증(Cross Validation) 데이터를 여러 부분으로 나누고, 각 부분을 훈련과 데스트 용도로 번갈아 사용하여 모델을 평가하는 방법. 모델의 일반화 성능을 더 정확하게 측정할 수 있다. 교차 검증의 필요성 과적합을 피하면서 파라미터를 튜닝하고 일반적인 모