7-1. 크리에이터 및 콘텐츠 소개


심화 노드 학습 내용 정리

  • 빅데이터 톺아보기
    • 빅데이터 전반 내용
    • 빅쿼리 환경 설정 방법 학습

빅쿼리?

  • 빅데이터 분석 및 관리 클라우드 기반 데이터 웨어하우스
  • 구글 클라우드 플랫폼(GCP)에서 사용
  • 데이터 센터에 복제본 3개가 분산 저장되어 유실 위험 적음.
  • 테라바이트급 쿼리 -> 초 단위 처리
  • 페타바이트급 쿼리 -> 분 단위 처리
  • 관계형 데이터베이스 SQL을 그대로 사용!

  • SQL 기초 체력 키우기
    • 퀴즈로 SQL 기초 문법 복습하기
    • 빅쿼리 사용법에 익숙해지는 단계!

  • 실무에서 많이 쓰이는 고급 SQL 기술
    • 윈도우 함수, 그룹 함수, JSON 데이터 다루기
      • 윈도우 함수 : 순위 함수, 집계 함수 익히기
      • 그룹 함수 : 기존에 다루지 않은 심화 내용
      • JSON 데이터 : 주로 로그 데이터 형태 -> 빅쿼리에서 어떻게 처리하는지 학습!

  • SQL로 데이터 분석하기
    • 실무에서 자주 쓰는 분석 프레임워크 개념 학습
      • 분석 프레임워크에서의 SQL 사용법 학습
      • 데이터 과학자로서 "모두몰"(온라인 쇼핑몰)에 대한 분석 프레임워크 및 SQL 문법을 이용한 데이터 추출 및 분석 경험!


7-2. 들어가며


  • 학습 목표
    • 윈도우 함수 학습 -> 데이터 분석 능력 함양
    • 그룹 함수 -> 자료의 빠른 정리!
    • JSON 데이터 처리


7-3. 빅데이터를 지탱하는 툴과 기술


스몰 데이터란?

  • 대용량 데이터(빅데이터)와 대조

  • 상대적으로 작은 규모 데이터셋

    상대적의 기준은?

    • 몇 천 개 이하 데이터 포인트
    • 데이터크기나 복잡성이 빅데이터에 비해 상대적으로 적음
  • 또 다른 시각

    • 마틴 린드스트롬(Small Data - The Tiny Clues That Uncover Huge Trend 저자)
      • 정의 : "개인의 취향과 필요, 생활 양식 등의 사소한 행동에서 나오는 데이터"
      • 대량 데이터 ❌ -> 고객에 대한 사소한 정보까지 담을 수 있는 데이터!!
      • 획기적 아이디어의 탄생 및 브랜드의 변화가 가능한 데이터!

수직 확장과 수평 확장

  • 데이터베이스 확장 방법 2가지
    • 수평(적) 확장(성)(수평 스케일링, Scale Out)
    • 수직(적) 확장(성)(수직 스케일링, Scale Up)

대부분 스케일 아웃, 스케일 업으로 이야기함!

  • 이미지 출처 : SciSpike

  • 수평(적) 확장(성)

    • 기존 DB에 새 서버 추가

    • 수평 확장의 장점

      • 업그레이드 용이, 구현이 간편 -> 비용이 적게 든다!
      • 서버의 무제한 추가 가능
        -> 이는 곧 무제한적 확장
        -> 서버 부하 집중 현상에도 분산 처리를 통해 치명적 장애를 회피할 수 있음을 의미!
    • 수평 확장의 단점

      • 버그의 탐색 및 해결이 다소 어려움
      • 클러스터링 작업(여러 서버를 1개 서버처럼 사용) 필요
      • 수직 확장에 비해 관리 어려움
      • 서버 네트워크가 원하는 성능을 내지 못하기도 함
      • 노드 추가로 인해 데이터 센터 비용의 증가 우려가 있음

보통의 웹(앱) 서비스의 서버는 수평 확장을 사용!

  • 사용자 급증 시 서버 확장
  • 사용자 유입 안정 -> 서버 축소하는 방식

  • 수직(적) 확장(성)

    • 기존 서버의 리소스, 용량, 스펙을 늘려 성능 향상
      ex1) 32GB 서버 메모리 -> 64GB로 업그레이드
      ex2) 더 좋은 성능을 가진 CPU 교체

    • 수직 확장의 장점

      • 확장 과정 간편
      • 데이터 센터 비용의 큰 증가 ❌
      • 관리자 입장에서 서버의 관리 및 유지가 쉬움.
    • 수직 확장의 단점

      • 확장 시마다 많은 비용 지불
      • 업그레이드에 한계치가 있음
      • 다른 제품과 통합하기 어려움
      • 서버 업그레이드 시간 동안 -> 시스템 사용 불가 문제 발생
      • 서버의 부하 집중 시 단일 장애점(SPOF) 발생

즉, 수직적 확장은 데이터 일관성무결성을 다뤄야 하는 DB 서버에 적합!



7-4. 빅쿼리(BigQuery) 실습 환경 설정하기


빅쿼리(BigQuery) 사용하기

  • GCP에 회원가입 및 로그인

    • 구글 계정에 로그인이 되어 있다면 바로 무료로 시작하기 클릭해 시작!

    • 계정 정보 확인 및 서비스 약관 동의

    • 계좌 정보 등록 : 회사가 아닌 경우 "개인"으로 생성할 것.

    • 고객 정보 입력 및 코드 인증 진행, 결제 수단 등록

    • 완료!

참고 : 빅쿼리 무료로 사용하기
🚨 무료 체험판 기간 중에 만든 모든 내용은 미리 저장할 것!🚨

  • 무료 체험판 : 신규 고객 대상 90일간 $300의 크레딧 제공(2023년 11월 기준)
  • 쿼리 데이터 1TB, 저장 용량 10GB를 매월 무료 사용 가능
  • 빅쿼리 가격 책정 확인

데이터 생성하기

  • 본인 프로젝트 ID의 점 3개를 클릭해 데이터세트만들기 진행
  • project_name : 본인의 프로젝트명 작성
  • dataset_name : 본인의 데이터명 작성

  • 코드 실행
  • 저장은 저장 > 쿼리 저장(기존) 클릭!
  • 결과 보기는 여기!

빅쿼리에서의 주석 처리/해제

  • 윈도우: Ctrl + /
  • 맥: Command+ /
  • 해제 : 해제할 코드 전체 선택 및 동일 단축키 사용
profile
언젠가 내 코드로 세상에 기여할 수 있도록, Data Science&BE 개발 기록 노트☘️

0개의 댓글

관련 채용 정보