데이터 엔지니어링 개요데이터 수집기(logstash, filebeat, fluentd)AWS (S3, Athena, Kinesis, Glue, Lambda, etc)ElasticsearchKafkaApache Flink 데이터를 수집, 저장, 처리를
용어 정리를 한번 더 해보자. • 의사 결정을 위해 다양한 source의 데이터를 분석 가능하고 구조화된 형식으로 저장하는 저장소• 다양한 source에서 필요한 데이터를 수정, 정제, 가공, 집계해서 저장하는 곳 for analysis & repor
Apache Kafka란 데이터 파이프라인, 스트리밍 분석, 데이터 통합을 위한 오픈 소스 분산 이벤트 스트리밍 플랫폼(distributed event streaming platform)이다.이벤트 스트리밍은 인체의 중추 신경계에 해당하는 디지털 처리 방식으로,비즈니스
대량의 데이터를 실시간으로 분석하기 위해 batch로 만든 데이터와 실시간 데이터를 혼합하여 사용하는 아키텍처Lambda Architecture = batch layer + serving layer + speed layer• Duplicate Code: 두 개의 서로