[Review] 빅데이터를 지탱하는 기술 (데이터 엔지니어 필독서!!)

East Sea·2023년 2월 4일
2

Review

목록 보기
1/1
post-thumbnail

빅데이터를 지탱하는 기술이라는 책을 읽고 쓴 후기입니다 :)

책을 읽게된 이유

데이터 엔지니어가 된지 어느덧 4개월이 되어가는 시점.. 아직은 공부해야 할 것들이 너무나 많다 🥲 학부생 시절 데이터베이스시스템 및 응용데이터사이언스 수업을 재밌게 들으며 데이터 분야에 진로를 희망하게 됐는데, 지금은 어엿한 데린이가 되었다..! 개발하면서도 데이터 엔지니어링 지식을 배울 수 있었겠지만,, 아무것도 모르는 상황에선 무작정 달려드는 것 보다 기초 지식을 학습하는 것이 도움이 된다고 생각한다. 취업하고 부서 배치를 받은 뒤, 사수님께서 내가 데이터 엔지니어로 잘 성장했으면 좋겠다는 마음으로 책을 사주셨다. 그 책이 바로 빅데이터를 지탱하는 기술 이다. 책을 받은지는 이미 3개월이 되어가고 있는데,, 이제서야 다 읽게 되어 후기를 작성하려 한다. 😅 (죄송합니다 사수님 ㅜ)

내용

후기를 말하기 전 내용에 대해 간략히 정리하면, 제목 그대로 빅데이터를 처리하는 기술들을 다룬다. 기술에 대한 이론적 지식도 다루면서, 해당 기술이 현재 어떤 애플리케이션으로 제공되고 있는지 사용법과 함께 소개되고 있다. 물론 이론도 내용도 모두 가볍게 짚고 넘어가지만, 처음 데이터 엔지니어 직무를 수행하는 사람들에겐 (혹은 데이터 엔지니어 분야에 흥미를 가지고 있는 사람들에겐) 거의 빅데이터의 바이블이라 할 정도로 내용이 잘되어 있다. 👏

책의 모든 내용을 언급할 순 없겠지만 전체적인 흐름은 데이터의 분석보다 데이터의 처리에 초점을 두고있다. 그렇다면 데이터 분석과 데이터 처리는 어떤 차이점이 있을까? 데이터 처리는 서비스하고 있는 애플리케이션 혹은 인터넷 세상에 돌아다니는 방대한 양의 데이터 소스에서 데이터를 가져와 어떻게/어떤 구조로/어디에 저장할지 고민하고 설계한다. 그리고 그 데이터를 요구사항에 맞게 가공하고 저장하며, 필요하다면 이 과정을 자동화하는 작업까지 데이터 처리라고 생각한다. 그리고 이렇게 가공된 데이터를 이용해 ML 혹은 통계학 등의 기법을 사용하여 기존에 몰랐던 새로운 인사이트를 발굴해 내는 것이 데이터 분석이다. (마치 맥주를 사는 사람들은 기저귀를 산다는 rule 처럼..)

본론으로 돌아와, 이 책은 위에서 말한 것 처럼 데이터 처리를 다루고 있다. 즉, 데이터 파이프라인을 구축하는 방법에 대해 설명하고 있으며, 그에 필요한 지식과 기술들을 소개한다. 따라서 ML/AI 엔지니어가 데이터 분석을 위해 이 책을 선택하기에는 배우고자 하는 분야가 다를 수 있다. (하지만 데이터를 이해하는데는 큰 도움이 될 것이다)

책의 초반 부분에 이 책에 대하여 라는 섹션이 있다. 해당 부분 중 이 책의 내용 파트가 있는데, 그 파트 내에 적혀 있는 글들 중 아래 적은 문단이 책의 전체 내용을 잘 설명하고 있는 것 같아 그대로 가져와 보았다.

이 책에서는 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 높게 취급하기 위한 기초를 먼저 설명한다. 그 다음에 '워크플로 관리'와 '스트림 처리'등의 데이터 처리를 자동화하는 기술을 살펴본다.

후기

"데이터 엔지니어는 어떤 일을 하나요? 🤔" 라는 질문에 해답을 알고 싶다면, 이 책을 읽는 것을 추천한다. 물론 모든 데이터 엔지니어들이 책에 설명된 데이터 처리 업무를 수행하는 것은 아닐 수 있지만, 업의 본질은 같을 것이라 생각한다.

필자 또한 처음엔 데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가의 차이를 명확히 알지 못했다. (사실 실제로도 명확하게 업무를 선 그을 수 있는 것은 아니긴 하다 😅) 하지만 현업에서 업무를 수행하며 이 책을 읽었을 때, 내가 데이터 엔지니어로서 이루고자 하는 것이 무엇인지 목표를 명확히 할 수 있었다. 필자가 생각하는 데이터 엔지니어란 "빅데이터를 수집/처리/가공/저장한 뒤(데이터 파이프라인을 구축한 뒤), 사용자에게 필요한 정보나 분석할 수 있는 환경을 제공하는 사람. 그리고 빅데이터를 다루는 일련의 과정을 효율화 하거나 자동화 할 수 있는 사람" 이라고 정의하고 싶다. 이게 이 책이 다루고자 하는 모든 내용을 대변하는 문구라고도 생각한다. 🙂

(위에서 한 말이 정말 맞는지 궁금한 사람, 혹은 너무 추상적으로 다가와 좀 더 자세한 내용을 알고 싶은 사람, 아니면) 데이터 엔지니어링에 관심이 있고 빅데이터 처리 기술을 알고 싶은 사람이라면 빅데이터를 지탱하는 기술 책을 읽어보자!

참고

1개의 댓글

comment-user-thumbnail
2023년 2월 4일

좋은 사수분을 두셨군요! 부럽습니다 ㅎㅎㅎ
좋은 글 읽고 가요!

답글 달기