# DAG

18개의 포스트
post-thumbnail

[Airflow] Airflow 설치 및 개요

Airflow Airflow 개요 Python코드로 워크플로우(workflow)를 작성하고, 스케줄링&모니터링 하는 플랫폼 ETL작업 자동화 DAG(Directed Acyclic Graph)형태의 워크플로우 작성 가능 Airflow 구조 Schedular : 모든

6일 전
·
0개의 댓글
·

Airflow 와 BigQuery 연결하기 + BigQuery DAG Example

BigQuery에 웹행동 이벤트 데이터를 수집하고 있다. 그 데이터들을 이리저리 만지고 옮기고 위해 Airflow를 활용하기로 했다.(물론 나혼자 결정) Airflow 는 데이터 엔지니어 직무에서 주로 ETL 작업에서 주로 사용하는 툴로 알고 있다.

2023년 3월 16일
·
0개의 댓글
·

빅데이터를 지탱하는 기술 - 5장

5장 빅데이터의 파이프라인

2023년 2월 14일
·
0개의 댓글
·

14567 선수과목 (Prerequisite)

백준 문제 풀이

2023년 1월 10일
·
0개의 댓글
·
post-thumbnail

IOTA와 DAG

DAG와 아이오타

2022년 11월 18일
·
0개의 댓글
·
post-thumbnail

세그윗, 머클트리, 탭루트, 블룸필터, DAG

블록체인의 시작이자, 세계 최초의 암호화폐인 비트코인은 매우 느리고 제한된 서비스였다.트랜잭션(거래 기록): 약 10분 단위로 저장(블록 생성)승인: 안전한 거래를 위해서는 최소 6번의 승인 필요안전한 트랜잭션을 위해서는 약 1시간 이상 소요된다는 문제점이 있다.또한

2022년 10월 10일
·
0개의 댓글
·

위상정렬(Topological Sort)

DAG(Directed Acyclic Graph): 사이클이 없는 방향 있는 그래프위상 정렬(Topological Sort): 그래프의 간선 u → v에서 v를 선행하기에 앞서 u를 먼저 수행해야 한다는 의미에서 봤을 때 정점의 순서를 찾아주는 알고리즘 : 보통 위상정

2022년 9월 9일
·
0개의 댓글
·
post-thumbnail

분산원장(2)

정의 : 비트코인의 스크립트를 개선하여 프라이버시를 향상시키고 복잡한 트랜잭션과 관련된 요소를 개선하기 위한 소프트 포크쉽게 말해 비트코인 거래 시 남는 기록의 결과값만 저장하고 나머지 중간과정은 오프체인에 저장하는 것장점전송 데이터 감소블록당 더 많은 트랜잭션 처리

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

Cloud Composer - AWS S3의 데이터를 사용하여 GCP에서 데이터 분석

DAG를 통해 BigQuery 공개 데이터 세트의 ghcn_d 데이터와 S3 버킷에 저장된 CSV 파일을 join한 다음 Dataproc 배치 작업을 실행하여 결합한 데이터를 처리하여 빅쿼리에 적재하는 실습을 해볼 것이다.Composer 2 버전으로 환경을 생성해준다.

2022년 9월 1일
·
0개의 댓글
·
post-thumbnail

Cloud Composer - ELT 파이프라인 구축

Airflow가 지원하는 Operator중 GoogleCloudStorageToBigQueryOperator를 사용해 ELT 파이프라인을 구축해볼 것이다.내 버킷을 하나 생성해준다.git clone으로 해당 리포지토리를 받은 다음 이 파일들을 gsutil cp를 통해

2022년 8월 11일
·
0개의 댓글
·
post-thumbnail

Cloud Composer - Dataflow를 사용한 ETL 파이프라인 구축

DataflowTemplateOperator를 사용하여 Cloud Composer에서 Dataflow 파이프라인을 실행해볼 것이다.Composer 환경을 생성하는데 Composer 버전이 1.9이상이어야 해서 Composer2 버전으로 만들어줬다.average_weat

2022년 8월 11일
·
0개의 댓글
·
post-thumbnail

Airflow DAG start_date 제대로 알기

airflow를 이용하여 DAG를 정기적으로 구동시키려면다음을 주의해야한다.start_dateDAG 구동의 기준점이 될 시간schedule_interval어느 주기로 실행할지많이들 헷갈리는 개념이 start_date이다.start_date를 직역해서 받아들이면우리가 생

2022년 7월 28일
·
0개의 댓글
·
post-thumbnail

Airflow

AirBnB에서 만든 workflow management toolPython 코드로 워크플로우(workflow)를 작성하고, 스케쥴링, 모니터링 할 수 있는 플랫폼일련의 작업 흐름Not ETL → workflow 및 파이프라인을 관리하는 툴관리란?workflow 작성

2022년 6월 8일
·
0개의 댓글
·
post-thumbnail

Cloud Composer 사용해보기

Cloud Composer는 데이터 분석 워크플로우를 오케스트레이션 해주는 Apache Airflow의 구글 클라우드 managed 리소스이다.Airflow프로그래밍 방식으로 워크플로를 작성, 예약 및 모니터링하는 플랫폼Airflow를 사용하여 작업의 DAG(Dire

2022년 6월 8일
·
0개의 댓글
·

[1766] 문제집

bfs 를 활용한 위상 정렬 알고리즘이다. 여기서 주의 해야할 점은 최소 힙을 썼다는 것인데, 문제의 조건에 의하면 가능하면 쉬운 문제 부터 풀어야 한다라는 것이 있으므로, 가장 작은 수부터 큐에서 pop을 하여야 한다.

2021년 12월 2일
·
0개의 댓글
·
post-thumbnail

An Efficient Utilization Test for Scheduling Hard Real-Time Sporadic DAG Task Systems on Multiprocessors

Sporadic DAG Task에 대한 Lazy Cpath Policy Global EDF 상에서의 schedulability analysis

2021년 2월 20일
·
0개의 댓글
·
post-thumbnail

Random DAG Generator

Random한 DAG를 만드는 Python 코드

2021년 1월 21일
·
2개의 댓글
·
post-thumbnail

DAG Task Scheduling Algorithms for Heterogeneous Computing : HEFT, CPOP, HLBS

Heterogeneous System에서 DAG Task Scheduling 알고리즘인 HEFT, CPOP, HLBS에 대한 설명을 담은 두 논문에 대한 review

2021년 1월 1일
·
0개의 댓글
·