[스터디] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python (6기) - 3주차

2innnnn0·2022년 1월 8일
0

dataengineeringstudy

목록 보기
3/5
post-thumbnail
  • 수의사 플랫폼 예시.

    • 서비스 프로덕션DB
      • vet : 수의사 정보
      • hospital : 병원 정보
    • 서머리 테이블
      • 지불 써머리
      • 진료CASE 써머리
      • 수의사 써머리
      • ...
      • 이를 루커를 통해 시각화.
      • dbt 오픈소스를 많이 씀.
        • ETL이 아닌 ELT방식.
      • 요게 잘 빌드 되지 않으면, 이러한 써머리 테이블들이 무한정으로 늘어나게 됨. 그렇게 되면 관리도 어려워지고 사일로가 발생.
    • SQL 퀴즈
      • NULL : 값이 없음.
      • COUNT(1) → 7개의 레코드에 대해서 무조건 1을 카운트 해줌. 레코드에 무엇이 들어있는지 중요하지 않음.
      • COUNT(value) -> NULL을 뺀 나머지 레코드를 계산.
      • COUNT(DISTINCT value) -> 고유한 값만 계산.
  • 하둡

    • 맵리듀스를 지금 현업에서 쓰고있다? 그것은 레거시.
    • 지금은 모두 스파크를 쓰고 있음.
    • SQL은 정형화된 데이터가 좋지만, 비정형화된 데이터에는 만능이 아님.
    • pandas나 처리하는 양에 따라 spark로 승격해서 사용.
  • 실습.

    • 데이터를 항상 의심하라.
  • 데이터 테이블들을 모두 관리하는 것은 어렵다. 그래서 중요 테이블들을 잘 관리하는 것이 중요.

    • 데이터 디스커버리
  • 나름의 팀 내부의 포맷팅이 필요함.

    • 이런 규약이 없으면, 누구는 단수형 누구는 복수형으로 쓰게 되어서 헷갈리고 복잡해짐.
    • 정리해두면 시간을 조금 절약할 수 있음.
  • Star schema <-> denormalized schema

    • 스타 스키마.

과제 진행

  • 과제를 진행하면서 틀렸던 부분이 있었는데, 해당 부분을 꼼꼼히 체크해주시면서 접근하는 방법을 공유해주심.
  • 막히는 부분이 있으면 언제든 질문을 하도록 유도하시며 질문에 부담을 갖지않도록 편하게 이야기를 주심.

profile
성장하고 싶은 데이터분석가.

2개의 댓글

comment-user-thumbnail
2022년 4월 18일

안녕하세요 이번에 8기로 저번주 첫주에 수업들은 홍태경이라 합니다 매주 잘 정리된 글을 보며 도움이 많이 되었습니다
혹시.. 질문이 몇가지 있는데.. 드릴 수 있을까용..?..

1) 첫주라 미션이 퀴즈밖에 없는 상황에서 3주때부터 실습 미션을 주어주시나요?? 주어진다면 어떤 방식으로 주어지나요?

2) 제가 현재 파이썬 프로그래밍을 배운지 얼마 되지 않아 혹시 수료를 하시고 난 후, 다시 이 수업을 듣는다면 사전에 어떤 공부를 하셧을거 같으신가요? 지금 막 떠오르는건 mysql, 파이썬 정도 밖에 떠오르지 않습니다 흑..ㅠ

3) Airflow은 ETL을 개발 하는 툴이 맞나요..? 혹시 ETL 개발에 프로그래밍 자료구조나 알고리즘의 필요성을 느끼셧나요..?

1개의 답글