빅쿼리 테이블 중복 제거하기

DataExplorer·2023년 5월 10일
0

빅쿼리

목록 보기
1/1

중복 발생 이유

젠킨스를 이용하여 배치로 적재중이던 빅쿼리 테이블이 하루 한번 적재되어야 하지만 배치 시간 설정 실수로 중복에 대한 처리 없이 매시간 적재되며 중복값이 적재되고 말았다.

항상 신중하게 변경하도록 하자!

중복 제거 방법

빅쿼리 테이블 적재과정에서 중복값이 적재되어 중복데이터를 제거해야 한다면
CREATE OR REPLACE command를 사용하여 테이블에 대한 처리가 가능하다.

  • table_id는 항상 백틱(`)으로 감쏴줘야 한다.

쿼리로 중복 제거

빅쿼리에서 쿼리를 사용할수도 있고 파이썬 API로 수행도 가능하다.

  • table_id는 project.dataset.table 형식으로 사용
CREATE OR REPLACE TABLE `table_id`
AS
SELECT DISTINCT *
FROM `table_id`

Python API로 제거하기

  • table_id는 쿼리이용과 동일하게 project.dataset.table 사용
from google.cloud import bigquery
client = bigquery.Client(project='project')

query = """
		CREATE OR REPLACE TABLE `table_id`
        AS
        SELECT DISTINCT *
        FROM `table_id`
		"""

query_job = client.query(query)
profile
데이터세계를 탐험하는 데이터 엔지니어

0개의 댓글