젠킨스를 이용하여 배치로 적재중이던 빅쿼리 테이블이 하루 한번 적재되어야 하지만 배치 시간 설정 실수로 중복에 대한 처리 없이 매시간 적재되며 중복값이 적재되고 말았다.
항상 신중하게 변경하도록 하자!
빅쿼리 테이블 적재과정에서 중복값이 적재되어 중복데이터를 제거해야 한다면
CREATE OR REPLACE
command를 사용하여 테이블에 대한 처리가 가능하다.
빅쿼리에서 쿼리를 사용할수도 있고 파이썬 API로 수행도 가능하다.
project.dataset.table
형식으로 사용CREATE OR REPLACE TABLE `table_id`
AS
SELECT DISTINCT *
FROM `table_id`
project.dataset.table
사용from google.cloud import bigquery
client = bigquery.Client(project='project')
query = """
CREATE OR REPLACE TABLE `table_id`
AS
SELECT DISTINCT *
FROM `table_id`
"""
query_job = client.query(query)