keithcha.log
로그인
keithcha.log
로그인
Brightics 정리- Pre-processing
고독한 키쓰차
·
2020년 11월 5일
팔로우
0
Add Function Column
Update Column
0
Brightics
목록 보기
1/1
Add Function Column
날짜정보 이용해서 새로운 컬럼 만들때 사용 가능 (Hive QL)
Update Column
if 조건으로 데이터 입력
Binarizer
Threshold 이상인 데이터를 1, 미만인 데이터를 0 으로 변환해서 새로운 컬럼 형성
Stratified Sampling
지정한 그룹에서 정해진 비율만큼만 가져옴
예) group, 20% / A : 20%, B: 20%, C:20%
Frequency
해당 Column group by 범주 frequency count
Bind
python concat 과 동일(axis=1)
Delete Missing Data
해당 Column 에 공백이 있는 행 삭제
Statistic Summary
평균, 최고, 최소, 혹은 NaN, Null 가능
Replace Missing Number
NaN 에 대해서 특정 column의 대표값(mean)으로 채울 수 있음
Refine Data
Add Columm, Group by 등의 함수들을 순차적으로 하나의 함수(Refine Data)에서 전처리가 가능함
Extend Datetime
불연속 시간단위의 간격을 채워줌
예) 201001 201005 -> Impute : Month -> 201001 201002 201003 201004 201005
사용하기 전에는, 원데이터가 불연속시간 기준으로 오름차순 정렬
Year 기준일 경우 존재하지 않는 년도의 경우 0101 로 채워짐
Transpose Time Series
time 기준으로 value의 값을 정렬한다
Json data transform
String Filter 로 관리 가능
고독한 키쓰차
Data Scientist or Gourmet
팔로우
0개의 댓글
댓글 작성