AWS Glue

Volc·2024년 1월 22일
0

AWS

목록 보기
3/6

AWS Glue란?

  • 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있또록 하는 서버리스 데이터 통합 서비스이다.
  • 70개 이상의 데이터 소스를 검색하여 연결하고 중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있다.

AWS Glue 기능

  • 데이터 검색 및 구성
    • AWS의 모든 데이터를 카탈로그로 분류하여 여러 데이터 소스 및 싱크에서 저장, 인덱싱, 검색 할 수 있다.
    • AWS Glue 크롤러를 사용하여 스키마 정보를 자동으로 추론하고 AWS Glue Data Catalog에 통합한다.
    • 데이터베이스와 테이블에 대한 액세스를 검증하고 제어한다.
    • 데이터 레이크를 구축하기 위해 AWS Glue 연결을 사용하여 온프레미스와 AWS 모두에서 여러 데이터 소스를 활용한다.
  • 분석을 위한 데이터 변환, 준비, 정리
    • 코드 자동 생성 기능을 통해 ETL 구축 가능
    • 데이터 전송 중에 데이터를 정리 및 변환 할 수 있다.
    • 기계 학습 전문가가 아니더라도 분석을 위해 데이터를 정리하고 준비할 수 있다.
    • 기능은 중복 데이터를 제거하고 서로 불완전하게 일치하는 레코드를 찾는다.
    • notebook 제공
    • 대화형 방식의 데이터 탐색, 실험, 처리
    • 민감한 데이터 탐지를 통해 데이터 파이프라인과 데이터 레이크에서 민감한 데이터를 정의, 식별, 처리할 수 있다.
  • 데이터 파이프라인 구축 및 모니터링
    • 리소스를 동적으로 확장 및 축소 가능
    • 크롤러를 시작하거나 이벤트 기반 트리거를 사용하여 AWS Glue 작업을 수행하고 종속 작업 및 크롤러 체인을 설계
    • 원하는 엔진(Spark)에서 AWS Glue 작업을 실행
profile
미래를 생각하는 개발자

0개의 댓글