Data Scientist vs Data Enginner vs Data Analyst 한 눈에 비교해보기.

박하영·2023년 12월 23일
0

Data

목록 보기
1/1

각 직군이 겹치는 부분이 많고 각 직군에서도 세분화가 많이 되기 때문에 한마디로 정의는 쉽지 않음. 데이터 직군은 같은 이름의 role이라도 기업마다 하는 일이 다른경우가 매우 많음. 아래의 직군별 소개는 매우 일반화된 정보임의 주의

(1) 데이터 분석가(Data Analyst)

일반적으로 Data cleaning, Data Analysis. Data visualization의 작업을 주로 함.

데이터 분석가는 팀이 데이터 기반 의사결을 내릴 수 있도록 대부분의 팀에 필요한 존재.

데이터 분석 보고서 및 시각화 자료를 통해 비즈니스 결정에서 '추측'에 의한 결정을 없앨 수 있게 해주고, 서로 다른 팀간의 중재자 역할을 함. 조직의 성장에 대한 정확한 지표를 확인.

일반적으로 하는 작업

  • Rqw 데이터 정리 및 구성

  • 기술 통계를 활용한 데이터 분석

  • 데이터 해석 및 의사 결정을 내리는 데 도움이 되는 시각화 및 대시보드 구성

  • 기술 분석 결과를 비즈니스 고객 또는 내부 팀에 발표

※ 회사에 따라 Data Analytics 업무를 Data Scientist 라는 이름의 직군이 담당하는 경우도 있음. 예) 페이스북

(2) 데이터 과학자(Data Scientist)

머신러닝/AI 알고리즘 모델을 개발하여 주요 비즈니스 질문에 머신러닝 모델을 통한 예측을 제공.

통계적인 지식을 갖고 데이터를 정리, 분석할 수 있어야하며, 이러한 기술에 대해 머신러닝 모델을 훈련하고 최적화할 수 있어야함.

주로 분석가가 과거와 현재의 관점에서 데이터를 이해하는 데 초점을 맞추는 반면, 과학자느 미래에 대한 예측을 생성하는데 초점

일반적으로 하는 일

  • 분석의 유효성을 결정하기 위해 통계 모델을 평가

  • 머신러닝을 사용하여 예측 알고리즘을 구축

  • 모델의 지속적 학습 및 최적화 운영

(3) Data Engineer

데이터 플랫폼과 데이터 파이프라인 아키텍처를 개발하고 운영.

데이터 분석가와 데이터 과학자가 데이터 바다에서 자유롭게 헤엄칠 수 있게 데이터 기반 플랫폼을 구성하고 데이터를 잘 제공하는 것이 중요.

소프트웨어 개발 기술에 많이 의존. 대규모 데이터를 처리하기 위해 분산처리에 대한 기술적 이해도가 필요한 경우가 많음.

일반적으로하는 일

  • 데이터 소비를 위한 API 구축

  • 데이터 플랫폼 아키텍처 구성

  • 데이터 파이프라인 개발/운영

  • 머신러닝 모델 feature store 제공

(1) 데이터 분석가

  • 비즈니스/도메인 지식

  • 데이터 시각화 역량(BI-Tableau, MSTR 등)

  • 데이터 분석을 위한 통계적 지식

  • SQL

데이터 분석가는 Business와 Data Visualization, 그리고 통계적 분석 역량에 가장 큰 요구사항이 있음.

그래서 비즈니스 도메인에 대한 이해를 필수로 함.

예) 금융산업의 특성과 금융 고객의 행동 특성에 대한 이해가 필수적. 각 산업별 특징에 대한 이해 없이 데이터만으로 '상관관계'는 어느 정도 읽을 수 있지만 '인과관계'의 컨텍스트를 분석해내기는 거의 불가능.

매출이 특정 시기에 폭락한다면 데이터로 패턴은 보이지만 왜 고객들이 그렇게 행동하는지 해석이 불가함. 그걸 알려면 문화/환경/산업/고객의 특성을 알아야 한다는 이야기.

이유를 알 수 없으면 의사결정에도 제약이 있기 마련인데, 그럴 때 문화나 산업에 대해 잘 아는 사람이 '그때가 그 나라에서 큰 축제를 마치고 모두 휴가 가는 시기다'라고 한마디해주면 그때 가서 인과관계를 이해하고 구체적 대응방안을 낼 수 있는 경우가 있음.

데이터 분석가는 일반적으로 기술직군 보다는 경영/비즈니스 직군에 가까움 ⇒ SQL 외에 기술적 요구는 크지 않음.

경쟁률은 매우 높음 ⇒ 데이터를 분석하고 분석자료를 통해 회사의 의사결정을 주도하는 역할에 매력

※ 데이터 분석가라는 직무로 데이터 과학자의 일을 겸하기도 하고, 데이터 사이언티스트라는 직무 담당자가 분석가의 일을 겸하는 경우도 있음.

(2) 데이터 과학자

  • 머신러닝, AI에 대한 지식

  • 머신러닝 모델을 구축하기 위한 기본적인 스크립팅 랭귀지(Python 등) 코딩 스킬

  • 데이터 분석을 위한 통계적 지식

  • SQL

데이터 과학자는 데이터분석가와 겹치는 부분이 많음. 데이터 분석 역량에 대한 것은 모두 기본으로 갖춰야하며, 수학/통계 역량과 ML modeling 역량을 필요로 하며, 어느 정도의 프로그래밍 역량을 요구.

IT 조직 규모가 큰회사에서는 ML Engineer를 따로 분류해서 운영을 하기도 함. 이런 경우 Data Scientist는 석/박사급 인력들이 AI모델을 개발하고 리서치하고 논문을 내는 연구실과같은 역할을 맡고, ML Engineer는 Software Engineer로서 대용량 데이터의 분산처리가 필요한 실제 서비스 환경에 맞게 모델을 튜닝하고 운영하는 역할을 맡게 되기도 함.

이직군은 중간 정도의 개발 역량과 ML/AI 역량을 모두 두루두루 커버해야하기 때문에 가장 진입장벽이 높은 직군.

(Data Engineer가 MLOPS를 주로 하는 경우 ML Engineer로 부르는 경우도 많음)

(3) Data Engineer

Software Engineering과 Big Data 기술, 데이터베이스 기술에 대한 이해를 필요로 함. 반면 분석, 비즈니스에 대한 이해 요구는 다른 롤들에 비해 상대적으로 적은 편.

대체로 백엔드 개발자를 하던 사람들이 자연스럽게 넘어오는 경우가 많음.

필요한 지식과 스킬

  • Python, Java, Scala 등 주요 랭귀지 코딩 스킬

  • 빅데이터 분산처리 시스템 아키텍처에 대한 이해

데이터 엔지니어의 경우에도 직군이 세분화되어있는 경우가 있음.

분석업무 지원을 위해 ETL 잡을 개발/운영하는 Analytics Data Engineer가 있고, 데이터 플랫폼 백앤드아키택처 및 API를 구성하고 개발하는 Data Platform Data Engineer가 있음.

Analytics Data Engineer는 전통적으로 빅데이터 이전부터 BI엔지니어 등으로 원래 있던 직군이 빅데이터 기술쪽으로 진화. SQL + 중간 수준의 Software Engineering 작업을 주로 함.

Data Platform Data Engineer는 빅데이터 분산시스템이 생기면서 이 시스템을 개발, 운영하기 위해 새로 생긴 직군. Soffware Engineering과 Devops의 역량을 모두가져야함으로 Enginerring 역량이나 복잡도 면에서 조금더 높음.

※주로 새벽에 자주깨서 장애처리 작업을 하는건 전자라서 뭐가 더 편하다 덜 힘든건 아님.
[출처] Data Scientist vs Data Engineer vs Data Analyst|작성자 joje

[출처] Data Scientist vs Data Engineer vs Data Analyst|작성자 joje

profile
RM_young

0개의 댓글