# Data Engineer

[DE] ETL과 ELT의 개념 (+ETLT)
1. ETL 1-1. 정의 ETL 프로세스란 여러 소스에서 데이터를 수집하고, 이를 표준화하여, 분석을 위한 데이터 웨어하우스 또는 저장을 위한 데이터베이스 또는 기타 유형의 데이터 소스에 적재하는 데이터 통합 프로세스이다. 1-2. 단계 E(Extract) : 추출

[PLAYDATA 데이터 엔지니어링 19기] Day 1 Start!!!
K-Digital Training은 정부가 한국형 뉴딜(사람투자)로 디지털 일자리 취업을 위한 교육기회를 제공하는 디지털 핵심 실무인재 양성사업으로 훈련 과정의 교육 비용은 정부가 부담하고, 디지털 선도기업이 직접 훈련과정을 지원하는 사업입니다C언어부터 시작했다가 C+

데이터 엔지니어(Data Engineer, DE)란?
회사마다 데이터 관련 포지션에게 요구하는 상세 역할은 조금씩 차이가 있습니다. 데이터 엔지니어어는 데이터 분야에서 가장 인기 있는 역할 중 하나이지만, 데이터 엔지니어링과 데이터 엔지니어의 정의에 대한 많은 혼란이 있습니다. 이 글을 통해 일반적인 데이터 엔지니어링과
Spark

새로운 데이터 아키텍처의 시대 1편 - Modern Data Architecture
현시대에서 데이터의 중요성은 누구나 인지하고 있는 개념이고 생각합니다. 데이터의 중요성과 더불어 데이터가 다양한 곳에 활용되며, 수집이 되는 데이터의 종류도 많아졌습니다. 이 글에서는 데이터양과 활용성에 증가에 따라 과거부터 지금까지 데이터를 처리하기 위한...
데이터 엔지니어 로드맵
데이터 엔지니어 ❓데이터 엔지니어는 한마디로 기업 내 데이터 기초 공사를 하는거라고 할 수 있다. 어떻게 데이터를 수집할 지, 어떤 방식으로 데이터를 쌓을지, 어떻게 관리할지를 고민하여 기업이나 회사 내 데이터 흐름을 생성한다.공사를 잘 했어도 이후에 누수

해외 주식 분석 프로젝트-1
안녕하세요.프로젝트를 진행하기에 앞서 간략한 자기소개부터 하겠습니다.저는 2020년 초부터 미국 배당주/성장주에 장기투자중인 서학개미입니다.약 2년의 투자 경험을 바탕으로 보유중인 주식에 대한 정보를한눈에 쉽게 파악 및 분석해보고 싶어서본 프로젝트를 기획하게 되었습니다

크롤링부터 데이터 플랫폼까지 1.서비스 아키텍쳐
이 글은 Analytics 및 서비스에 필요한 데이터 아키텍쳐와 파이프라인 개발을 위한 A to Z의 첫 번째 글이다.
Databricks 시작하기
입사할 당시 Back-end로 들어왔지만, CTO께서 제가 데이터 엔지니어에도 관심이 많다는 것을 알고, Data Processing팀으로 옮기게 되었고, DP에서 하는 기본적인 업무 외에 DP업무 확장 개념으로 databricks를 활용해 data lake를 구축을
[Elasticsearch] 자주 사용하는 명령어
일반적인 상황에서는 empty list 반환pending 되어 있는 작업이 있는 경우 그 리스트 반환GC가 비정상적이거나 CPU가 높거나 검색이 밀리는 등 대부분의 문제의 원인을 유추할 수 있음\[Task Management API | Elasticsearch Refe
[Logstash] Elasticsearch 와 RDBMS 연동
Kibana - Stack Management - Logstash Pipelineshttps://s3-us-west-2.amazonaws.com/secure.notion-static.com/b598fa56-2d09-4b65-b08c-14b77f3921a0/Un
[Elasticsearch] Node Start and Stop
[Elasticsearch] Node Start and Stop Elasticsearch Node를 재시작 할 때 아래와 같은 방법으로 작업을 진행하여야 샤드들이 재배치 되지 않고 빠르게 재시작 할 수 있음 Shard Allocation Stop 노드를 중단했을
4-4. Importing JSON Data and Working with APIs
가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 4코스: Importing JSON Data and Working with APIs를 수강하고 그에 관련 내용을 적어보았다. >🌱 출처 : Datacamp data enigneering track 모르는 부분이
[스터디] 스파크 완벽 가이드 16일차
스파크 애플리케이션은 스파크 클러스터와 사용자 코드 두가지 조합으로 구성된다. 애플리케이션 개발시 템플릿을 이용하여 기본적인 틀을 잡을 수 있다. 스파크에서 지원하는 언어에 따라 해당 절에서는 스칼라, 파이썬, 자바로 어플리케이션을 작성하는 방법을 소개하고 있다.
[스터디] 스파크 완벽 가이드 15일차
스파크 드라이버 : 스파크 애플리케이션의 실행을 제어하고 스파크 클러스터의 모든 상태 정보를 유지한다. 물리적 컴퓨팅 자원 확보와 익스큐터 실행을 위한 클러스터 매니저와 통신할 수 있어야 한다.
[스터디] 스파크 완벽 가이드 13일차
RDD에는 key-value형태의 데이터를 다룰 수 있는 다양한 메서드가 존재한다. 이러한 메서드들은 <연산명>ByKey 형태의 이름을 가지며 PairRDD타입만 사용할 수 있다.
[스터디] 스파크 완벽 가이드 12일차
스파크에는 두 종류의 저수준 API가 있다. 분산 데이터 처리를 위한 RDD와 브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API가 있다. 저수준 API를 사용하는 상황은 다음과 같다.
[스터디] 스파크 완벽 가이드 11일차
Dataset은 구조적 API의 기본 데이터 타입이다. 앞서 살펴본 DataFrame은 Row타입의 Dataset이다. Dataset은 JVM을 사용하는 언어인 스칼라와 자바에서만 사용할 수 있다. 그렇다면 Dataset을 사용해야하는 이유는 무엇일까?
[스터디] 스파크 완벽 가이드 10일차
스파크 SQL은 하이브 메타스토어를 사용하기 때문에 하이브와 잘 연동된다. 스파크 SQL은 하이브 메타스토어에 접속한 뒤 조회할 파일 수를 최소화하기 위해 메타데이터를 참조한다.