# snowflake

25개의 포스트
post-thumbnail

Snowflake 아키텍쳐와 캐싱

최근에 스노우플레이크 캐싱에 대해 이것저것 조사할 일이 있었는데 잊기 전에 정리해본다. 작성에 참고한 자료는 아래와 같다. https://www.analytics.today/blog/caching-in-snowflake-data-warehouse https://docs.snowflake.com/sql-reference/account-usage#label-account-usage-views https://dl.acm.org/doi/10.1145/2882903.2903741 https://www.linkedin.com/pulse/snowflake-architecture-overview-minzhen-yang/ 스노우플레이크의 기본 아키텍쳐와 각 아키텍쳐에서 어떻게 caching을 이용하는지, result caching을 최대한 활용하기 위해 주의해야할 제약사항은 뭔지, local disk 레이어에서 caching을 유지하기 위한 best practic

2023년 8월 2일
·
1개의 댓글
·

Amazon S3에 액세스하도록 Snowflake 설정하기

설정을 하기에 앞서 Snowflake의 Integration에 대해 알아보자. Integration이란? 일반적으로 Snowflake에서 데이터를 가져오거나 클라우드 서비스(예: S3)와 통합하기 위해 인증 정보를 사용해야 할 때, 해당 클라우드 공급자의 비밀 키 또는 액세스 토큰과 같은 자격 증명을 설정해야 한다. 그러나 Integration 을 사용하면 명시적인 자격 증명을 전달하지 않고도 클라우드 공급자와의 통합을 수행할 수 있다. Integration 개체는 Snowflake에서 관리되는 개체로, 클라우드 공급자와의 연결 및 자격 증명 정보를 중앙에서 관리한다. 이를 통해 Snowflake 사용자는 개별적으로 자격 증명을 설정하거나 관리하지 않고도 해당 클라우드 공급자와의 통

2023년 7월 2일
·
0개의 댓글
·
post-thumbnail

snowflake_BUILD[.local]_서울_20230531

핸즈온랩 (데이터 파이프라인 구축하기) 01.Staging and Loading Data alter warehouse computewh set warehousesize='Medium'; alter warehouse computewh set warehousesize='x2large'; 웨어하우스 크기가 클수록 적재 시간이 빨라져야한다.(흐음...테스트 시 더 느려짐) 02.Stream and Task 스트림 오브젝트 select system$taskdependentsenable('cit

2023년 5월 31일
·
0개의 댓글
·
post-thumbnail

5. Day 4-5

학습주제 snowflake 기타 기능 사용 중단방법 학습내용 마켓플레이스 - ETL 스노우플레이크는 로그인하려면 이메일에 온 별도 주소로 접근 마켓플레이스는 플러그인 같은걸 제공 stripe 크레딧카드로 이커머스에서 돈을 받는다면 stripe에 기록이 남음. 워낙 많은 패턴들이 있다보니 저런 과금 플러그인도 사용하면 좋음 데이터 소스를 검색해서 얻을 수 있음 코딩 최소화, 외부데이터를 돈을 써서 쉽게 가져올 수 있음 데이터 쉐어링 내한테 쉐어된 것, 내가 쉐어 중인거 확인 대부분 공유 데이터베이스는 읽기만 가능 무료 시험판에선 사

2023년 5월 28일
·
0개의 댓글
·
post-thumbnail

4. Day 4-4

학습주제 사용자 권한 설정 (Snowflake Role) 보안 기능 학습내용 레드쉬프트에서 일부러 GROUP을 사용함. ROLE을 사용하지않음 이번에 ROLE을 사용해서 비교해보려함 레드쉬프트는 상대적 오래된 기술. 대표적으로 스노우플레이크는 사용자 그룹 지원 X AWS 레거시 호환문제 때문에 못없앰 GRUOP , ROLE 흡사 ROLE은 계승 구조를 지원. 베이스가 되는 role 만들면 계승해나가면서 추가하면 됨. 세개의 role을 생성 역할을 유저에게 부여 GRANT 기용이 ROLE을 계승하게 됨 두개의 role에 대해 3개의

2023년 5월 28일
·
0개의 댓글
·
post-thumbnail

3. Day 4-3

학습주제 snowflake 실습을 위한 초기 환경 설정 학습내용 aws iam role 같은거 세팅 ACCOUNTADMIN 확인 후 SQL worksheet 생성 이름을 바꿔줌 Setup-Env

2023년 5월 27일
·
0개의 댓글
·
post-thumbnail

2. Day 4-2

학습주제 snowflake 무료사용 학습내용 최대 30일 또는 400불까지 이후 서스펜디드상태 - 사용불가 - 크레딧카드 정보 입력후 지속사용 우리는 가장 싼 스탠다드로 시작 클라우드를 선택하고 Oregon을 선택한다 ![](https://velog.velcdn.com/images/kjw9684/post/1f3718db-f035-4996-938d-c3db7d2d4

2023년 5월 27일
·
0개의 댓글
·
post-thumbnail

1. day 4-1

학습주제 Snowflake 운영과 관리 설치, 운영, 관리 Redshift와의 비교 학습내용 이번엔 snowflake를 알아본다 sql 실행과 관계된 실습 중심 redshift와 굉장히 유사점 갖고 있음 상당히 스케일러블함 여기도 무료 시험판이 있다. (최대 400불, 최대 30일) 초과하면 서스펜디드 상태. 크레딧 카드 정보 입력하면 다시 사용가능 레드쉬프트 서버리스 때 다양한 환경설정을 했었음. 스키마, 테이블, ROLE, COPY, IAM, EXTERNAL TABLE(스펙트럼 사용, 이번엔 시연 X, 비슷한 기능은 있음) 사용자 권한 설정, 기타 기능들 알아본다 마지막으로 종료 ![](https://velog.velcdn.com/images/kjw9684/post/47add1eb-68a5-4b13-

2023년 5월 27일
·
0개의 댓글
·
post-thumbnail

[Snowflake] 3. Snowflake 사용자 권한 설정

❄️ 역할(role)에 Snowflake 스키마 접근 권한을 부여해 보자. 다음과 같이 RAW_DATA, ANALYTICS, ADHOC 각 스키마에 두 개의 역할(ROLE)을 만들어 권한을 부여해 보자. 이때 ANALYTICSAUTHORS는 데이터 분석가를 위한 테이블로 ANALYTICS 테이블에 직접 읽기 권한과 쓰기 권한을 가지지만 ANALYTICSUSERS에 경우 분석된 데이터를 조회할 수 있는 권한만 가지게 구현한다. 1. 역할(role) 생성 다음과 같이 `D

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

[TIL] ETL, ELT, Redshift, 데이터 분석/처리용 고급 SQL, BI대시보드 (4)

학습내용 Snowflake 특징 소개 Snowflake 무료 시험판 시작 Snowflake 초기 설정 Snowflake 사용자 권한 설정 Snowflake 기타 기능과 사용 중단 1. Snowflake 특징 소개 Snowflake 클라우드 기반 데이터 웨어하우스로 시작해 데이터 클라우드라고 부를 수 있을 정도로 발전 글로벌 클라우드(AWS, GCP, Azure) 위에서 모두 동작 -> 멀티클라우드 데이터 판매를 통해 매출을 가능하게 해주는 Data Sharing, Marketplace 서비스 제공 ETL과 다양한 데이터 통합 기능 특징 스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변비용 모델 Redshift 고정비용 옵션처럼 노드 수를 조정할 필요가 없고, distkey 등의 최적화 불필요

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

[Snowflake] 2. Snowflake 초기 환경 설정 및 벌크 업데이트

❄️ Snowflake에 데이터 웨어하우스 환경을 구축해 보고, 벌크 업데이트를 통해 업로드한 csv 파일을 분석해 새로운 테이블을 생성해 보자. DEV라는 데이터베이스 안에 세 개의 스키마를 생성해 본다. RAW_DATA는 ETL의 결과가 들어가는 스키마 ANALYTICS는 ELT의 결과가 들어가는 스키마 ADHOC은 테스트용 테이블이 들어가는 스키마 이후 생성된 RAW_DATA 스키마에 S3의 csv 파일을 통해 벌크 업데이트해 테이블에 값을 추가해 본다. 생성한 RAW_DATA 스키마 테이블을 토대로 `ANALY

2023년 5월 25일
·
0개의 댓글
·

20230525 TIL - Snowflake

📖 오늘의 학습 Snowflake Snowflake Snowflake는 2014년에 런칭한 클라우드 기반 데이터 웨어하우스이다. AWS, GCP, Azure 와 같은 글로벌 클라우드에서 모두 동작하여 접근성이 뛰어나다. 현재까지 데이터 클라우드라고 부를 수 있을 정도로 발전했다. Customer Service도 잘 되어있어 비개발 회사에서 많이 선호된다. (Siemens, Flexport, Iterable, Affirm, PepsiCo, ...) 기능 전반적으로 Redshift와 기능이 비슷하지만 Snowflake가 좀 더 편리한 기능을 제공한다. SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해주고, 비구조화된 데이터 처리와 머신러닝 기능도 제공한다.

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

[Snowflake] 1. Snowflake 시작

📌 Snowflake 30 일 무료 체험판을 통해 Snowflake를 시작해 보자 1. Sign Up 먼저 snowflake sign up에 접속해 준다. 30 일 동안 최대 $400 상당의 무료 크레딧을 제공하고 있다. 다음과 같이 가입을 위한 간단한 정보들을 입력하게 되면 Snowflake 에디션을 선택할 수 있는 창이 뜬다. ![](https://velog.velcdn.com/images/ssongji/post/c6086614-dfe9-44b4-84c3-540e199a

2023년 5월 25일
·
0개의 댓글
·
post-thumbnail

[SnowFlake]데이터웨어하우징_Badge따기!

개별로 로우 업로드 CSV파일 업로드 사용 가능한 CSV파일 형식 해당 파일 형식에 맞춰서 load 형식을 생성해준다 (이건 아직까지 예전 UI에만 존재한다고 함) 테이블 생성 DB에서 테이블을 선택, 업로드할 데이터를 올리고, 미리 생성해 놓은 데이터 포맷을 눌러 데이터를 로딩한다. 주의 사항 : 헤더 유무, 데이터 형식

2023년 4월 6일
·
0개의 댓글
·
post-thumbnail

SNOWFLAKE ASCENT_20230406

Snowflake 행사장 와이파이가 안되어 집에 간다...><

2023년 4월 6일
·
0개의 댓글
·
post-thumbnail

Snowflake 간단 설명

새로운 곳에서 새로운 경험을 쌓는 중 마이크로서비스로써 다양한 서버들이 통신하는 중 고유한 ID를 Snowflake로 만들어 사용하는 것을 보고 정리한 내용을 포스팅합니다. Snowflake는 안정적으로 오랫동안 사용되고 있는 기술인 만큼 저희 프로젝트에서도 강력한 도구로써 잘 사용되고 있습니다. 등장 배경 Snowflake는 트위터의 서비스가 성장함에 따라 관리해야 하는 데이터의 수가 점점 많아지고 더욱 더 많은 사용자에게 빠르게 응답해야 하는 상황에서 트위터는 데이터의 고유ID의 생성을 32bit로 한정하지 않으면서 동시에 더욱 더 빠르게 생성되길 바랐습니다. 이러한 요구사항으로 트위터는 Snowflake를 개발하게 되었습니다. 장점 확장성: 대규모 데이터 웨어하우징 어플리케이션의 요구사항을 충족하도록 원활하게 확장 가능하도록 설계 되었습니다. 매우 큰 데이터와 수천 명의 동시사용자를 쉽게 처리할 수 있습니다. 성능: 고성능으로 사용자에게

2023년 2월 10일
·
0개의 댓글
·
post-thumbnail

[SNOWFLAKE] 워크로드

👀 Workloads ☝ Data Engineering 개방형 데이터 에코시스템을 통한 배치 처리 및 스트리밍 데이터 파이프라인 Snowflake는 정형, 반정형 및 비정형 데이터의 일괄 처리 및 연속 데이터 수집을 모두 처리합니다. 데이터 변환 요청에 따른 맞춤형 규모와 성능 Snowflake의 고유 아키텍처는 각 워크로드에 대한 리소스를 분리하여 안전하고 통제된 플랫폼 내에서 멀티 클러스터 컴퓨팅 환경을 제공합니다. 단순화된 데이터 변환 및 아키텍처 인프라 관리에 소요되는 시간을 줄이고 불필요한 데이터 파이프라인을 제거하여 Snowflake로 파이프라인 개발 및 관리를 간소화. ✌ Data Lake `모든 데이터, 단일

2023년 2월 9일
·
0개의 댓글
·
post-thumbnail

[SNOWFLAKE] Data Lifecycle

☝ Data Lifecycle Snowflake의 모든 사용자 데이터는 표준 SQL 인터페이스를 통해 동작됩니다. ✌ Snowflake 모든 SQL 명령 https://docs.snowflake.com/ko/sql-reference/sql-all.html > 👍 참고 > https://docs.snowflake.com/en/user-guide/data-lifecycle.html

2023년 2월 8일
·
0개의 댓글
·
post-thumbnail

[SNOWFLAKE] 스노우플레이크에서의 DW

☝ Snowflake에서 DW Snowflake에서 DataWarehouse 는 데이터를 저장하지 않습니다. 데이터 처리를 수행하는데 사용되는 "노동력" 입니다. Snowflake 에서 DataWarehouse를 생성하면 "인력"을 정의하는 것입니다. 클러스터는 하나이고, 그 안이 서버로 구성되어 있습니다. 소규모 DW에는 몇 대의 서버로 구성된 하나의 클러스터가 있고, 더 큰 DW에는 더 많은 서버로 구성된 하나의 클러스터가 있습니다. 확장 및 축소 DW 크기를 변경하면 클러스터의 서버 수가 변경됩니다. 기존 DW 크기를 변경하는 것을 scaling up 혹은 scaling down이라고 합니다. Snowflake에는 `scaling out

2023년 2월 8일
·
0개의 댓글
·
post-thumbnail

[SNOWFLAKE] ID 및 액세스

👀 개념정리 IDENTITY IDENTITY는 당신이 누구인지에 관한 것입니다. IDENTITY를 통과하는 것을 Authentication(인증)이라고 합니다. ACCESS 무언가에 ACCESS할 수 있는 권한을 증명하는 것을 Authentication(인증) 이라고 합니다. ACCESS는 때때로 RBAC 역할 할당을 통해 테스트되고 부여됩니다. > 접근제어 > 컴퓨터 시스템 보안에서 권한이 있는 사용자들에게 시스템 접근을 통제하는 방법 > - RBAC ( Role Based Access Control ) 역할기반접근제어 > > 정보에 대한 사용자의 접근 권한을 각 User의 Identity나 이미 정해진 규칙에 의해 판단하지 않고, User가 소속된 조직 내에서의 Role에 따라 결정. > > - DAC ( Discretionary Access Control ) 임의적 접근통제 > > 정보에 대한 사용자의 접근 권한을 사용자 계

2023년 2월 8일
·
0개의 댓글
·