# Preprocessing

[논문리뷰] The impact of preprocessing on text classification (2013)
A.K. Uysal, S. Gunal / Information Processing and Management 50 (2014) 104–112 링크: https://www.sciencedirect.com/science/article/abs/pii/S0306457
[라인맨 포지션 평가] playDescription 데이터 전처리 및 가공
0. 배경 및 필요성 plays.csv 파일의 playDescription 열에서 패스 플레이 시 패스를 한 선수, 패스를 받은 선수, sack을 한 선수 등의 이름을 추출하는 방식으로 데이터를 가공했다. 이것을 한 이유는 라인맨 대 라인맨의 상대 전적을 파악할 때, 상대 전적과 선수의 여러 가지 스펙 간 어떤 연관성이 있는지 데이터를 통해 파악하고 주요...
Chess Opening database Preprocessing
이전 포스팅에서는 lichess에서 제공한 체스 오프닝 데이터를 간단하게 전처리 했다. 이번엔 본격적으로 우리가 데이터베이스에 저장할 포맷으로 전처리를 진행한다.
[텍스트 전처리] Simple
인공지능 모델에 학습시키기 위한 다양한 텍스트 전처리 방법이 있지만, 그 중에 가장 단순하게 특수문자 제거 및 반복문자 제거를 위한 전처리 방법만을 기록해 놓는다.df'text' = df'text'.apply(lambda x: re.sub("^ A-Za-z0-9가-힣"
Data Preprocessing
Why Preprocessing? >#### 데이터 전처리가 필요한 이유 실제 데이터는 다양한 소스 및 프로세스에 의해 수집되며 데이터 집합의 품질을 떨어트리는 이상값 또는 손상된 값이 포함될 수 있다. 데이터 분석에 용이하도록 적절한 처리 필요 데이터전처리를 위한
sklearn.preprocessing
데이터 전처리는 DL 에서 필수적인 요소이다.데이터 전처리에 사용 할 수 있는 것에는 여러가지가 있는데 그 중에서 sklearn.preprocessing 의 LabelEncoder를 살펴보자.

spatial filetering(공간 필터링) - preprocessing(전처리)
특정한 OXO의 필터를 처음부터 끝 픽셀까지 적용 --> 어떤 필터를 적용하느냐에 따라 다양한 결과 생성 1\. 기존의 것을 이용해 아예 새로운 mat을 만드는 것이므로 바뀐 값의 영향을 받지x주변의 평균 값으로 대체장점noise 줄여줌단점이미지 흐릿해짐업로드중..계수

[Dacon] 전처리(Preprocessing)
• 아마 train data에는 있고 test data에는 없거나 train data에는 없고 test data에는 있는 라벨이 목표값일 가능성 있음• ㄴ

[데이터 전처리] One-Hot Encodig 원핫인코딩
sckit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 걸 허락하지 않는다.이를 위한 전처리 방법 중 하나인 원핫 인코딩.고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 00으로 이루어진 벡터에 단 한개의 1의 값으로 해당 데이터의 값을 구별딥러닝, 데이터

[머신러닝] Data Scaling 데이터 스케일링
(주절주절) 열심히 정리하다가 ctrl+s를 눌렀어야 했는데 w를 눌렀나... 그러니 창이 꺼졌다. 임시저장도 안되어 있고... 어제는 서버에서 폴더명 바꾸려고 뒤에 ~ 붙이고 엔터치니 폴더가 숨겨져서 다른 분이 도와주셨다... 무튼 나중에 나중에... -2022.06

Data Preprocessing
현실 데이터는 분석 목적에 맞게 정리되어 있지 않아, 데이터 분석 기법을 그대로 적용하기 어려움 예시 노이즈, 결측치, 파편화 파일명, 폴더 등이 정리되어 있지 않거나, 시간 정렬이 되어 있지 않는 경우, 불필요한 값이 너무 많은 등 01. 데이터 전처리는 왜 중요할
pandas str replace tool
pandas 툴을 사용해 replace('\_\_', ',') 작업을 진행했는데 데이터가 변환되지 않았다.시도1\. type문제인가 싶어서 다시 str type으로 바꾸고 진행 (실패)df.astype(str).replace('\_\_', ',')2\. 바꾸려는 문자열
학습 데이터셋 전처리
학습 데이터 전처리란 무엇을 말하는걸까요? 인공지능을 학습시키기 위해서는 인공지능이 이해할 수 있는 형태로 데이터를 가공해야 합니다. 조금이라도 규격에 맞지 않으면 인공지능의 정확도가 떨어질 수 있으므로 세심한 주의가 필요한 과정이지요.

결측치(Missing values, Nulls) 처리에 대해서 (Imputation): SimpleImputer, IterativeImputer, MICE ..
이번에 카카오 테크 인턴 서합을 하면서 사전과제를 받았다.지금 진행중인데.. 결측치가 굉~장히 많았다.칼럼이나 갯수를 보아하니 의도적으로 정해진 비율만큼 제거하신 모양인(,,)데이터 갯수가 워낙 많아서 그냥 결측치를 떨궈도 70퍼센트정도는 살아있다고 생각하고 결측치를
Histogram Equalization
각 픽셀의 밝기나 색깔이 얼마나 강한지 히스토그램으로 분석해서 너무 강한 픽셀은 0-255 사이의 값으로 평준화 해주는 거다. gray scale 이미지에서는 어느 정도로 밝은지, rgb이미지에서는 어떤 색이 강한지 알아볼 때도 쓸 수 있을 것 같다.

[Tensorflow] 오디오 데이터 전처리하기1(librosa, fft, log- melspectrogram)
Reference https://ichi.pro/ko/tensorflowleul-sayonghayeo-gpueseo-odioleul-swibge-cheolihaneun-bangbeob-50154769354502 https://towardsdatascience.com