데이터 로드

Log·2022년 10월 6일
0

데이터 로드

Redshift warehouse에 데이터 로드

  • S3에서 Redshift로 데이터를 로드하는 가장 효율적인 방법은 COPY 명령을 사용하는 것이다.
  • COPY는 로드 중인 데이터를 대상 테이블의 기존행에 추가한다.
  • Insert 권한 필요

COPY 명령어

COPY table_name
[ column_list ]
FROM source_file
authorization
[ [ FORMAT ] [ AS ] data_format ]
[ parameter [ argument ] [ ,.. ] ]

e.g.

COPY my_schema.my_table
FROM 's3://bucket-name/file.csv'
iam_role '<my-arn>';

증분 및 전체 로드

CDC 로그에서 추출한 데이터 로드

  • 아래와 같이 이벤트 타입과 함께 데이터를 적재하고, transform 파이프라인 딴에서 변환단계를 거치는 것이 좋음
    EventType OrderId OrderStatus LastUpdated
    insert 1 assign 2022-10-01 06:00
    update 1 pickup 2022-10-01 12:00
    delete 1 pickup 2022-10-01 12:01


Snowflake warehouse를 대상으로 구성

이 부분은 snowflake를 직접 써봐야 이해가 될 것 같아서 지금은 패스

profile
열심히 정리하는 습관 기르기..

0개의 댓글