Brightics 정리- Pre-processing

고독한 키쓰차·2020년 11월 5일
0

Brightics

목록 보기
1/1

Add Function Column

  • 날짜정보 이용해서 새로운 컬럼 만들때 사용 가능 (Hive QL)
     

Update Column

  • if 조건으로 데이터 입력
     

Binarizer

  • Threshold 이상인 데이터를 1, 미만인 데이터를 0 으로 변환해서 새로운 컬럼 형성

  

Stratified Sampling

  • 지정한 그룹에서 정해진 비율만큼만 가져옴
    예) group, 20% / A : 20%, B: 20%, C:20%
     

Frequency

  • 해당 Column group by 범주 frequency count
     

Bind

  • python concat 과 동일(axis=1)
     

Delete Missing Data

  • 해당 Column 에 공백이 있는 행 삭제
     

Statistic Summary

  • 평균, 최고, 최소, 혹은 NaN, Null 가능
     

Replace Missing Number

  • NaN 에 대해서 특정 column의 대표값(mean)으로 채울 수 있음

  

Refine Data

  • Add Columm, Group by 등의 함수들을 순차적으로 하나의 함수(Refine Data)에서 전처리가 가능함

  

Extend Datetime

  • 불연속 시간단위의 간격을 채워줌
    예) 201001 201005 -> Impute : Month -> 201001 201002 201003 201004 201005
  • 사용하기 전에는, 원데이터가 불연속시간 기준으로 오름차순 정렬
  • Year 기준일 경우 존재하지 않는 년도의 경우 0101 로 채워짐
     

Transpose Time Series

  • time 기준으로 value의 값을 정렬한다

  

Json data transform

  • String Filter 로 관리 가능

  

profile
Data Scientist or Gourmet

0개의 댓글