# Data Preprocessing
[혼자 공부하는 머신러닝+딥러닝] - CH.2-2 Data Preprocessing
train_test_split() 함수 사용x축과 y축의 범위가 서로 달랐기에 기준이 안맞았던것y축이 범위가 훨씬 넓기에 y축으로 조금만 멀어져도 거리가 큰값으로 계산됨기준 맞춰주기브로드캐스팅: 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하

좋은 학습 데이터셋을 만드는 법 - 데이터 전처리 - 2
모델의 성능이 테스트 데이터보다 학습 데이터에서 잘 나온다면, overfitting의 결과로 파악할 수 있다. 이는 즉 모델이 high variance를 갖는다고 표현할 수 있는데, 주어진 데이터를 외우게 되어 발생하는 문제다.이를 해결하기 위한 방법으로는더 많은 학습

좋은 학습 데이터셋을 만드는 법 - 데이터 전처리 - 1
본 장에서는, 데이터 전처리과정을 통해 모델의 입력으로 들어갈 학습 데이터셋을 잘 만드는 법에 대해 알아본다.

[데이터 전처리] One-Hot Encodig 원핫인코딩
sckit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 걸 허락하지 않는다.이를 위한 전처리 방법 중 하나인 원핫 인코딩.고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 00으로 이루어진 벡터에 단 한개의 1의 값으로 해당 데이터의 값을 구별딥러닝, 데이터

[머신러닝] Data Scaling 데이터 스케일링
(주절주절) 열심히 정리하다가 ctrl+s를 눌렀어야 했는데 w를 눌렀나... 그러니 창이 꺼졌다. 임시저장도 안되어 있고... 어제는 서버에서 폴더명 바꾸려고 뒤에 ~ 붙이고 엔터치니 폴더가 숨겨져서 다른 분이 도와주셨다... 무튼 나중에 나중에... -2022.06

R-Data Preprocessing
오늘은 필요성을 느껴 입문하게된 R언어로 Data preprocessing을 블로깅 하려 한다. <span style='background-color: =R언어를 배우게 되면서 R studio도 같이 설치를 해보았는데 ui자체가 다소 난해하다는 느낌이 들지만 이또
Feature Engineering
Feature = Column or a Dimension of a DataFrameFeature Engineering = Combining/Restructuring the existing datasets to create a new featureScreen Shot 2
4/11 개발일지
data preprocessing (데이터 전처리)DATA를 분석하기 용이하게 고치는 모든 작업결측치:중요 데이터 빠짐데이터 오류 : 잘못된 데이터 입력이상치 : 일반적 범위 벗어남데이터 형식 : 분석하기 적합x범주형 데이터 : 다른 형태로 되어있다.scaling(변수
[AIB]Note113~4 Data Manipulation, Basic Derivative
ㅁData는 무슨 뜻인지 알고 있을거고, Manipulation은 조종하다는 뜻으로 이해하면 좋다. 데이터를 분석하기 좋도록 조종, 즉 조작, 수정 등으로 이해하면 좋을 듯하다.내가 원하는 데이터들이 우리가 보는 엑셀 파일 등에 하나로 다 들어가 있을 수가 없다. 왜냐
[AIB]Note113~4 Data Manipulation, Basic Derivative
Data Manipulation, Basic Derivative

모두를 위한 딥러닝 시즌 1 ML lec 7
저번 시간에 Cost 함수에 대해 배우고 Gradient descent은 못하고 지나쳤는데 이번 강의는 이에 대해 배운다. 우리는 Gradient descent 함수를 Cost 함수를 정의하고 값을 최소화하기 위해 사용한다.

형변환 (python)
데이터 분석을 위하여 작업하기 좋기 위하여 전처리가 필요하다raw data를 가져오다보면 "5,562" 와 같은 문자열 형태로 저장된 데이터가 존재하다이를 자료형을 변환하려고 해도 쉼표","가 존재하여 곤란한 경우가 있다아래와 같은 솔루션으로 이를 해결해보자

Feature Scaling in Scikit Learn
Data Preprocessing is not just about encoding the data and converting the data type within the dataset. It also requires arduous steps to adjust the w

Data Preprocessing in Scikit-Learn
Until now, we have learned about various machine learning techniques to enhance the performance of the model. However, handling and managing the data