🐍 SETTING 개발환경 설정③ (vscode: 대화형/로컬 bigquery)

Lightman·2022년 8월 11일

BigQuery Jupyter python vscode

CS: PYTHON🐍 & Ⓡ

목록 보기

4/14

vs code의 conda 가상환경에 대화형 환경인 jupyter notebook을 설정하고 bigquery를 연동하여 이용해보자

③ 로컬 vscode와 GCP 연동

CLIENT AUTHORIZATION

CASE1: 대화형 환경jupyter notebook의 경우(로컬과 colab)

준비물: GCP 프로젝트, 빅쿼리와 연동된 구글 아이디
➼ read_gbq를 이용하기 위해 필요한 모듈pandas-gbq을 설치한다
```
pip3 install --upgrade --force-reinstall pandas-gbq
```
➼ python 대화형 환경에서 read_gbq 함수를 실행하고 출력되는 링크에 접속하여 구글 아이디를 인증 및 쿼리를 불러온다
```
import pandas as pd
df = pd.read_gbq( query = query , project_id = 'project_id', dialect = 'standard' )
```

( 아래 방법으로도 가능하다 )

from google.cloud import bigquery
#from google.oauth2 import service_account

#GCP 프로젝트 입력
project_id = 'PROJECT_ID'

#authorization
client = bigquery.Client(project = project_id)

CASE2: 로컬 Python의 경우

준비물
- 해당 GCP 프로젝트의 BigQuery 조회가 가능한 서비스 계정(Service Account)생성 후 KEY를 JSON 파일로 저장

➼ google-cloud-bigquery, google-cloud-bigquery-storage package 설치

pip3 install --upgrade --force-reinstall google-cloud-bigquery google-cloud-bigquery-storage
#conda install -c conda-forge google-cloud-bigquery

➼ JSON에 저장된 KEY를 불러와서 client로 연결한다

from google.cloud import bigquery
#from google.oauth2 import service_account

#Local에 저장된 SERVICE_ACCOUNT_KEY JSON 파일 경로 입력
credentials = service_account.Credentials.from_service_account_file(r'SERVICE_ACCOUNT_KEY.JSON')

#GCP 프로젝트 입력
project_id = 'PROJECT_ID'

#authorization
client = bigquery.Client(credentials = credentials, project = project_id)

CLIENT 연결 후

QUERY

#QUERY
query_job = client.query("""BGQUERY""")
df = query_job.to_dataframe()

LOAD

#LOAD
PROJECT_ID = "project_id"
DATASET = "dataset"
TABLE_NAME = "table_name" 
TABLE_ID = f"{PROJECT_ID}.{DATASET}.{TABLE_NAME}"

job_config = bigquery.LoadJobConfig(
	schema=[
    	bigquery.SchemaField("f1", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("f2", bigquery.enums.SqlTypeNames.DATE),
        bigquery.SchemaField("f3", bigquery.enums.SqlTypeNames.FLOAT)],
	write_disposition="WRITE_APPEND" | "WRITE_TRUNCATE"
    )
# Make an API request
job = client.load_table_from_dataframe(
	dataframe, table_id, job_config = job_config)
# Activate Job
job.result()

SUMMARY: 대화형 환경의 경우

from google.cloud import bigquery
#from google.oauth2 import service_account

#CASE1: 대화형 환경
#GCP 프로젝트 입력
project_id = 'PROJECT_ID'
#authorization
client = bigquery.Client(project = project_id)

##CASE2: 로컬 환경
##Local에 저장된 SERVICE_ACCOUNT_KEY JSON 파일 경로 입력
#credentials = service_account.Credentials.from_service_account_file(r'SERVICE_ACCOUNT_KEY.JSON')
##GCP 프로젝트 입력
#project_id = 'PROJECT_ID'
##authorization
#client = bigquery.Client(credentials = credentials, project = project_id)
  
#QUERY
query_job = client.query("""BGQUERY""")
df = query_job.to_dataframe()

#LOAD
PROJECT_ID = "project_id"
DATASET = "dataset"
TABLE_NAME = "table_name" 
TABLE_ID = f"{PROJECT_ID}.{DATASET}.{TABLE_NAME}"

job_config = bigquery.LoadJobConfig(
	schema=[
    	bigquery.SchemaField("f1", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("f2", bigquery.enums.SqlTypeNames.DATE),
        bigquery.SchemaField("f3", bigquery.enums.SqlTypeNames.FLOAT)],
	write_disposition="WRITE_APPEND" | "WRITE_TRUNCATE"
    )
# Make an API request
job = client.load_table_from_dataframe(
	dataframe, table_id, job_config = job_config)
# Activate Job
job.result()

LESSON LEARNED

패키지 검색은 pip3와 pypi
패키지 설치가 안되면 파이썬, 아나콘다, 모듈의 버전을 살펴보자

python --version
conda --version
conda update

끝.

Lightman

현직 데이터 분석가 / 데이터 과학의 정도를 따라 🚲 / About DEV DA ML