목표 EC2에 올렸던 프로젝트를 로컬로 배포해본다. 시간상 여유가 있으면 class 대그도 수정, 추가 대그도 구현해본다. README도 작성..? 로컬 Postgres에 적재 시도. airflow DAGs 작성. web 연결 수정 superset 연결 로컬로 배포
전체적으로 중요하지 않은 내용들이 화려하게 나와있어, 인상이 약해보임추상적으로 작성되어 있는 것들도 있음.어떤 기술 개선이 있는지 알리면 좋을 것 같음.뭘 빠르게 수정? 뭘 검증, 수정했는지 알 수가 없음.이를 명확히 알 수 있게 개선하면 좋을 것 같음.어떤 교육과정에
이렇게 두개로 나누게 되면 가독성이 떨어짐.유저편의성을 고려했다고 하는데 -> 근거를 보충쉬운 코드를 작성 -> 보충자기소개에서 한 내용이 뒷받침 되는게 좋겠음.AWS는 그 안에 많은 서비스들이 있음. 어떤 서비스들이 있는지 판단하기 어려움. Ubuntu라고 되어 있으
강사님 노을에서 근무 중이심. 20년 넘게 데이터 엔지니어하심. 1년차 데이터 엔지니어이신 박진형님 노을에서 진행했던 프로젝트 강의. 작은 회사에서 일어날만한 일들에 대한 공유 네이버 - 성장하는 회사에서의 기회 동료들을 얻으심 스타트업 조인했다가 잘 안됨.
준비. 피그잼 진행. 깃허브 생성. 파이썬 가상환경 생성 및 팀원 환경 일치 확인. 아무래도 팀원과 같이 프로젝트를 하려면 각자의 라이브러리가 충돌할 가능성이 있기 때문에 venv를 돌려야 한다. venv를 설치하라고 한다. apt install python3.8-
목표. 각기 다른 계정의 s3와 redshift를 연결하기 s3를 통한 redshift 적재 에어플로우 대그 작성 내용 s3와 redshift의 각 계정에 IAM 권한을 서로 부여해서 가능케 해야한다. redshift의 경우 수업 내용이 있지만, s3의 경우 직접
자동화를 통해 사용자에게 빈번하게 배포 CI 지속적인 통합 CD 지속적인 제공 빌드되고 테스트됨. 코드 변경사항을 메인에 빈번하게 머지해야함. 오래되면 코드 통합하는게 어려워짐. 머지 충돌에 오랜 시간이 걸림. 통합을 위한 단계 (빌드, 테스트, 머지)의 자동화
에어플로우의 실행 순서를 동적으로 바꾸고 싶은 경우. 앞단의 태스크가 실패해도 꼭 실행이 되어야 하는 경우도 있음. 태스크 트리거 규칙들이 어떤게 있는지. 실행 의존에 대해 알아본다. 서브 대그라는 형태로, 비슷한 일을 하는 태스크들을 묶었는데. 2.0에서
슬랙 api에 들어가 your apps 들어가서 create app 선택스크래치 선택인커밍 웹훅을 온으로 설정만든 앱을 통해 채널의 메세지를 보내고싶은 이러한 형태로 HTTP요구를 해라 라고 보임.slack.py에 코드는 미리 만들어 놓았음.정상적으로 연동이 되는 것을
알람알릴 채널 미리 생성지정된 워크스페이스 채널로 보내는 일.해당 워크스페이스 App 설정.에러메세지를 보내는 함수를 생성. plugins/slack.py 사용태스크의 속성들이 지정되는 default_args가 있었음. 거기에 사용가능한 속성중on_failure_cal
목표.API를 호출하여 redshift 적재하기.기존 실습 redshift 계정을 활용하여, 적재에 성공함.API 호출제한이 있었음. 1분에 5분 제한으로 한번에 호출하는데 제약 발생.다른 API를 탐색. 모듈이 각 사이트를 크롤링하여 값 반환함.약 2천개 정도에서 호
git pull로 최신화 여부 확인ls -tl docker-compose.test.yamlvi로 확인VAR 값 들어간거 확인.새로 설치할 5개의 파이썬 모듈airflow-init엑 가보면폴더를 컨테이너 안쪽에 만들고주인으로 에어플로 유저를 세팅함이걸로 도커 컨테이너를
ELT, 구글시트, 슬랙 연동 ELT 구현을 에어플로우 상의 대그로 만들어본다 후반에 DBT로 바꿔볼 예정 슬랙을 연동을 해서 에어플로 대그 태스크 실행 중 에러 발생 시, 슬랙의 특정워크스페이스, 채널로 에러 보내보기. 슬랙의 앱을 설정하는 방법에 대해 알아
에어플로우 고급기능, dbt로 ELTELT 작성과 구글시트/슬랙 연동 배워보고에어플로우를 API로 조작해보기대그 디펜던시를 어떻게 할지태스크 그룹핑을 어떻게 할지데이터 파이프라인을 운영하는게 어떤 의미인지.dbt에 이해, 레드쉬프트로 구현dbt 에어플로우 위에서 대그로
마스터 노드로 .ssh로 로그인해본다ssh 로그인22번 포트 오픈해줘야함서밋으로 잡을 실행. 두개의 예제 불러봄지금 HDFS의 s3에 올려본다.s3는 HDFS에 해당함.csv보면Country, LearnCode(어떻게 코딩을 배웠는지)ssh 키페어를 가지고 로그인할 것
AWS EMR을 통해 스파크 클러스터 론치스파크는 결국 얀 등 위에서 돌아감.AWS에서는 얀 위에서 실행. AWS 에서 얀을 EMR이라고 부름. (하둡이라고도 함) AWS 하둡서비스. 얀.이 EMR을 설치할 때 다른 데이터 스택을 선택하는데, spark, hive 등을
클라우드 기반으로 스파크 클러스터를 론치해본다.2개의 예제 프로그램을 실행해본다.AWS 기반 진행.EMR을 통해 런치그 클러스터에 마스터 노드로 .ssh 로그인
입력되는 데이터가 얼마나 최적화 포맷으로 있냐에 때라 처리시간, 리소스 양 결정.파티셔팅 - 지금의 파티션 X파일시스템의 데이터를 특정 키를 중심으로 나눠서 저장하는 것.버켓팅, 파일시스템 파티셔닝두가지 모두 스파크 테이블로 관리, 데이터 저장을 향후 최적화된 방식으로
두개 config가 있음 adaptive를 끄는 이유는 우리가 이해하기 힘든 최적화를 하는 경우도 있기 때문. 학습측면에서 도움 안됨. text파일을 데이터 프레임으로 기본으로 주어지는 컬럼 이름은 value임 컬럼을 중심으로 공백을 기준으로 단어들의 리스트를 만
read 메소드를 통해서 csv파일을 읽는데,헤더는 Truewhere을 걸어 필터링을 걸어줌. 젠더가 F가 아님select로 필드 2개를 걸어줌groupby로 gender로 걸어줌count()로 수를 잡음..show()는 일부 드라이버쪽으로 넘어와 디스플레이됨.데이터