profile
Solutions Architect (haalsgud97@gsneotek.com)
post-thumbnail

Cloud Functions - GCS folder trigger

GCS to BigQuery 파이프라인 구축에서 이어지는 내용.앞의 포스팅과 같은 구조에서 'Cloud Storage에 지속적으로 쌓이는 csv파일들이 한 테이블에 계속해서 쌓이게끔 해줄 수는 없는가?'와 같은 요구조건이 있을 수 있다.ex) 한 달치 데이터가 계속해서

2022년 12월 15일
·
0개의 댓글
·
post-thumbnail

Cloud Functions을 사용한 GCS to BigQuery 파이프라인 구축

Cloud Storage에 들어오는 데이터를 빅쿼리로 적재하게끔 트리거를 걸 수 있는 Functions을 테스트해보았다.샘플 데이터는 Sample CSV file 에서 받았다.다운 받은 CSV(633KB)빅쿼리에 데이터 세트와 테이블, Cloud Storage에 버킷을

2022년 12월 12일
·
0개의 댓글
·
post-thumbnail

MapReduce

2004년 구글에서 발표한 Large Cluster 에서Data Processing 을 하기 위한 알고리즘Hadoop MapReduce 는 구글 알고리즘 논문을 소프트웨어 프레임워크로 구현한 구현체Key-Value 구조가 알고리즘의 핵심모든 문제를 해결하기에 적합하지는

2022년 12월 8일
·
0개의 댓글
·
post-thumbnail

HDFS

하둡 분산 파일 시스템(Hadoop Distributed File System)기존에도 parallel computing이라는 단어가 있지만 이 단어는 보다 cpu로 병렬처리를 한다는 것에 좀 더 초점을 둔 용어 distributed는 data에 좀 더 초점을 둔 용어

2022년 12월 7일
·
0개의 댓글
·
post-thumbnail

Hadoop 설치

해당 실습은 클라우드 환경에서 Ubuntu 18.04 VM을 하나 띄워서 진행했다.우선 JDK와 Maven을 설치해준다.hadoop 3.3.0 다운로드Hadoop 3.3.0 이 링크에서 tar.gz의 링크를 wget으로 받아온 후 압축을 해제해준다.하둡 데몬을 띄우기

2022년 12월 6일
·
0개의 댓글
·
post-thumbnail

Elasticsearch 기초2

curl -XGET http://localhost:9200/<index 이름>데이터를 조회할 경우 -XGET데이터를 생성 및 추가할 경우 -XPOST, -XPUT데이터를 삭제할 경우 -XDELETE여기서 http://localhost:9200 -

2022년 11월 29일
·
0개의 댓글
·
post-thumbnail

Elasticsearch 기초

분산형 RESTful 검색 및 분석 엔진으로 표준 RESTful API와 JSON을 사용ex) John이라는 text는 doc1과 doc2에서 볼 수 있고 database라는 text는 doc1과 doc3에서 볼 수 있다.es는 이 텍스트들을 인덱싱해서 인덱스라는 DB

2022년 11월 29일
·
0개의 댓글
·
post-thumbnail

GitHub Actions를 사용하여 GKE에 어플리케이션 배포

GitHub Actions는 코드 저장소(repository)로 유명한 GitHub에서 제공하는 CI/CD 기능이다. GitHub Actions를 사용하면 자동으로 코드 저장소에서 어떤 이벤트가 발생했을 때 특정 작업이 일어나게 하거나 주기적으로 어떤 작업들을 반복해서

2022년 11월 2일
·
0개의 댓글
·
post-thumbnail

GitLab CI/CD를 사용하여 GKE에 어플리케이션 배포

GitLab은 GitLab Runner라는 것을 작동하여 CI/CD 파이프라인을 구현할 수 있습니다. Runner에도 여러 버전이 있지만 default로 모든 프로젝트를 지원하는 Shared Runner를 사용해 GKE에 application 배포해볼 것이다.비공개 G

2022년 10월 24일
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용한 S3 to BigQuery 파이프라인 구축

일회성 마이그레이션이나 멀티 클라우드 환경을 쓰고 있지 않는 이상 클라우드간 네트워크 송신 비용이 나가기 때문에 이런 케이스가 많이 있는 편은 아니다.아래와 같은 csv파일에서 각 user_id에 대해 전송된 total amount를 계산해볼 것이다. user_id가

2022년 10월 21일
·
0개의 댓글
·
post-thumbnail

Kubernetes Multi-Tier Architecture

나는 GCP에서 GKE를 구성하여 앱을 배포해볼 것이다.(여기서 쓰이는 yaml파일들은 특정 클라우드 환경에 종속되지 않기 때문에 편한 환경에서 진행해보면 된다.)간단하게 웹페이지 방문 횟수가 Count되어 뜨는 app을 배포할 것이고 DB는 redis를 사용할 것이다

2022년 10월 15일
·
0개의 댓글
·
post-thumbnail

Kubernetes Kafka 세팅 및 Confluent Kafka 사용해보기

GCP에서 GKE를 구성하여 거기에서 카프카를 세팅해볼 것이다.(여기서 쓰이는 yaml파일들은 특정 클라우드 환경에 종속되지 않기 때문에 편한 환경에서 진행해보면 된다.)현재 진행하려 하는 것은 굳이 자동확장까지 할 필요는 없으므로 Standard를 선택한다.여기서 이

2022년 10월 11일
·
0개의 댓글
·
post-thumbnail

GCP와 AWS 차이

당연히 무수히 많은 차이점이 있을테지만, 그냥 공부하면서 알게된 것들을 정리한 것이고 틀린 내용이 있을 수도 있습니다.'단순히 AWS에서의 오브젝트 스토리지는 S3이고, GCP에서의 오브젝트 스토리지는 Cloud Storage다.'와 같이 비교한 글이 아닙니다.GCP의

2022년 10월 7일
·
0개의 댓글
·
post-thumbnail

Cloud IAM

AWS 혹은 타 클라우드를 조금이라도 공부해봤다면 알 수 있겠지만 IAM은 구글 클라우드 리소스에 접근할 수 있는 엑세스와 ID 권한을 부여해주는 서비스이다.기본 역할프로젝트에 줄 수 있는 역할 → 소유자, 편집자, 뷰어, 결제 관리자(결제 관리) 사전 정의된 역

2022년 10월 6일
·
0개의 댓글
·
post-thumbnail

Cloud Run을 사용한 Pub/Sub to BigQuery 파이프라인 구축

완전 관리형 서버리스 플랫폼에서 원하는 언어(Go, Python, 자바, Node.js, .NET)를 사용하여 확장 가능하고 컨테이너화된 앱을 빌드하고 배포할 수 있는 제품이다.즉, 도커같은 컨테이너만 준비해둔다면 매우 쉽게 해당 어플리케이션을 배포할 수 있는 것이다.

2022년 10월 4일
·
0개의 댓글
·
post-thumbnail

Dataflow 템플릿 커스텀해보기

빅쿼리 데이터 세트 생성timestamp, INT/FLOAT 유형의 컬럼, STRING 유형의 컬럼을 가지는 테이블 생성Dataflow가 동작하는 스테이지의 파일을 저장할 Cloud Storage 버킷 생성ps_to_bq.py실행콘솔에서 Pub/Sub 주제에 직접 메시

2022년 9월 29일
·
0개의 댓글
·
post-thumbnail

BigQuery 예약

먼저 예약을 말하기 전에 슬롯이라는 개념부터 알아야 한다.슬롯은 SQL 쿼리를 실행하기 위해 BigQuery에 사용되는 가상 CPU.예약은 바로 빅쿼리를 쓸 때 이 슬롯 용량을 구매해서 쓰는 것을 말한다.쿼리는 해당 용량 범위 내에서 실행되며, 일반적으로 슬롯을 더 많

2022년 9월 28일
·
0개의 댓글
·
post-thumbnail

Datastream을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

Datastream은 사용이 간편한 서버리스 CDC(변경 데이터 캡처) 및 복제 서비스.지연 시간을 최소화하면서 이기종 데이터베이스와 애플리케이션에서 데이터를 안정적으로 동기화할 수 있다.Datastream은 Oracle 및 MySQL,PostgreSQL 데이터베이스에

2022년 9월 27일
·
0개의 댓글
·
post-thumbnail

Twitter API를 사용한 스트리밍 파이프라인 구축

우선 Twitter API를 통해 ACCESS 및 Bearer Token 등을 받아온 상태여야 한다.이 키가 내 트위터 계정에 대한 정보를 잘 받아오는 지 확인하려면 아래 명령어를 실행시켜보면 된다.잘 받아오는 것 확인.그리고 GCP 콘솔에서 아래 리소스들을 생성해준다

2022년 9월 26일
·
0개의 댓글
·
post-thumbnail

Debezium을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

MySQL로 생성해주고 외부에서 접속을 해주기 위해 접속을 승인할 네트워크 대역을 지정해준다.해당 ip는 내 ip를 확인하여 지정해준 것이다.아래 명령어로 Cloud SQL 접속workbench와 같은 툴을 사용해도 되지만 Debezium 서버도 만들어야 하므로 Ubu

2022년 9월 22일
·
0개의 댓글
·