Big Query #1

이지수·2022년 9월 22일
0

BigQuery

목록 보기
1/4

Big Query

  1. RDBMS처럼 SQL 쿼리 사용 가능
  2. MapReduced 처럼 데이터셋 탐색을 효율적으로 분산할 수 있음

    빅쿼리는 서비리스 서비스, 즉 인프라를 관리할 필요 없이 쿼리 실행 가능

Big Query Setting

  1. Google Cloud 로그인

  2. Gcloud CLI

  1. Big Query API

    • API에 대한 액세스 사용 설정 > 서비스 사용설정
    • 이걸 진행해야 프로젝트 내 코드 실행이 가능함
  2. 코드 실행

SELECT
  EXTRACT(YEAR FROM starttime) AS year,  
  EXTRACT(MONTH FROM starttime) AS month,  
  COUNT(starttime) AS number_one_way
FROM
  `bigquery-public-data.new_york_citibike.citibike_trips`
  # Bigquery가 제공하는 기본 dataset > new_york_citibike > citibike_trips 데이터 읽어와라 
WHERE 
  start_station_name != end_station_name
GROUP BY year, month
ORDER BY year ASC, month ASC

보안 : 지역 코드를 이용하여 해당 지역 내에서 데이터에 대한 모든 쿼리가 수행되게 할 수 있음. 물리적 위치를 제어하는 기능을 제공하기도 하여, 선택한 지역의 외부로 데이터를 움직이지 못하게 하는 VPC 서비스 제어 정책 또한 생성할 수 있음

참고 정의

  1. RDBMS : 관계형 데이터베이스 관리 시스템
  2. OLTP(Online Transaction Processing) : MySQL, PostgreSQL 를 포함함
  3. Adhook Query : 필요에 따라 즉석에서 작성해 실행하는 쿼리
  4. 보통은 데이터베이스에 인덱스 기능을 사용하는 것이 최상의 기능을 발휘하는 쿼리 BUT Big Query는 Index 기능을 사용할 필요 없음
  5. OLTP DB는 전체 데이터의 순회가 필요한 Adhook Query에 적합하지 않아서, 이러한 분석은 Python 등의 고수준 언어로 수행

0개의 댓글

Powered by GraphCDN, the GraphQL CDN