Data Discovery Platform

Han Hanju·2022년 3월 2일
0
post-thumbnail

Data Discovery Platform

배경

조직 내에서 필요한 데이터가 어디 있는지 빠르게 검색하고, 어떤 건지 이해하고, 사용 방법을 배우게 도와 주는 플랫폼

  • 생산성
    • 데이터의 양과 종류가 늘어갈수록, 새로운 머신러닝 모델을 만들 때나 adhoc 분석 등을 할 시 어떤 데이터를 봐야 할지 알기 힘들진다.
  • 커뮤니케이션
    • 새 테이블 추가, 스키마 변경과 같은 소통.
  • 데이터사이언티스트는 data discovery에 약 20%의 시간을 사용

메타데이터

  • 메타데이터가 제공하는 정보들

    • 맥락: 사람이 이해하는데 도움을 주는 정보들. 예를 들어, 데이터의 존재 여부, 설명, 태그 등
    • 행동: 데이터가 어떻게 생성되고, 사용되는지 알려주며, 데이터 오너십, 데이터 사용자를 나타내는 데이터
    • 변화: 해당 데이터가 어떻게 변화 했는지를 보여주는 데이터. 대표적인 예로, 스키마 변화
  • 메타데이터가 설명해주는 데이터 예제

    • 데이터 저장소: Hive, MySQL, Redshift, etc
    • 대시보드: Tableau 대시보드, BI 관련 정보
    • 스트림: Apache Kafka, AWS Kinesis 스트리밍 정보
    • Processing: ETL jobs, ML workflow
    • 사용자
  • 메타데이터는 여러 가지 데이터 저장소, 대시보드, 스트림, 등에서 나온 맥락, 행동, 그리고 변화에 관련된 정보를 제공

데이터를 찾고, 이해하고, 사용하기 위한 기능들

  • 데이터를 검색 또는 더 똑똑한 방법들로 찾기
    • 원하는 데이터를 찾기위한 기본 방법은 컬럼명,테이블과 컬럼 설명, 사용자가 입력한 설명이나 코멘트 등의 메타데이터를 ElasticSearch 에서 검색
    • 많은 검색결과가 있다면 이에 대한 우선순위를 매기는게 필요 (테이블이 얼마나 많이 사용되는가로 순위를 결정)
  • 데이터를 스키마, 미리보기, 통계, 계보(Lineage)로 이해하기
    • 테이블을 이해하는 기본 정보는 데이터 스키마: 컬럼명, 데이터 타입, 설명(Description)
    • 미리 계산된 컬럼 단위의 통계도 제공: 컬럼별 Row수, Null인 Row수, 최대/최소/평균/중간값/표준편차, 고유한 Row수, 날짜 컬럼이라면 데이터의 전체 기간 범위
    • 데이터 계보를 제공해서 앞뒤 의존성 관계도 확인: ETL 작업(Airflow 로 스케줄링 되는)의 경우 스케줄/지연 여부등을 확인할수 있음.
  • 다른 사용자의 이용형태를 통해서 데이터 사용법을 배우기

오픈소스 DDP들 비교

  • DataHub (LinkedIn)
    • 2020년 2월에 공개
    • 검색, 테이블스키마, 오너십, 계보 기능 지원
    • Dataset, User, Group 세개의 엔티티 지원. Schemas/Jobs/Metrics/Dashboards 등의 엔티티 추가 예정
    • Hive, Kafka, RDB 메타데이터 지원 ( 내부에선 더 많이 지원하며, 더 공개될 수도 있음 )
    • Expedia, TypeForm 등이 채택했으며 MS,Morgan Stanley, Orange Telecom, ThoughtWorks 등도 POC 중
  • Amundsen (Lyft)
    • 2019년 10월에 공개
    • 검색, 추천, 미리보기/컬럼통계/소유자/주사용자 들이 잘 표현된 테이블 상세 페이지 지원. 계보기능은 없지만 추가예정
    • Data Quality System 과의 연동도 제공 예정 (아마도 Great Expectations - https://greatexpectations.io/)
    • 훌륭한 커뮤니티가 있음 : BigQuery/Redshift/Apache Atlas 등의 연동등을 개발해서 기여함
    • 15종 이상의 데이터 소스( Redshift, Cassandra, Hive, Snowflake 및 각종 RDB), Tableau,Redash, Mode Analytics 대시보드, Airflow 등과 연동을 지원
    • 문서화도 잘 되어있고, Docker 로 로컬에서 테스트 가능
    • Asana, Instacart, iRobot, Square 를 포함 30개 이상의 조직이 도입.
    • 2020 7월에 Linux AI 재단의 새 인큐베이션 프로젝트로 조인.
  • Socar Datahub VS Amundsen 비교 분석
  • Socar, 뱅크셀러드의 datahub 선택 이유
    • UI/UX 사용성의 편리함
    • Datahub가 문서화, 오너십, 권한, 통계, 데이터 계보 관점에서 더 다양하고 풍부한 기능들을 지원
    • 플랫폼 개발자 측면에서도 메타데이터 주입 시 Datahub가 더 편리
    • 빠르고 풍부한 서포트

사용기업

  • DataHub
    • 쏘카, 뱅크셀러드
  • Amundsen
    • 직방, 베이글코드

Reference

profile
Data Analytics Engineer

0개의 댓글