1-2. Definition of Data Analyst

타키탸키·2020년 11월 7일
1

DA 알아보기

목록 보기
2/10

🔜 데이터 분석 과정

준비 ↔ 안정된 인프라 구축, 데이터 정제 등

Kaggle에서 얻은 데이터를 활용했을 때는 몰랐다. 쓰레기 데이터들의 존재를. 셀 수 없이 많은 데이터가 존재한다는 것은 그만큼 무가치한 데이터들도 존재한다는 것을 의미한다. 데이터는 "나 분석해 주세요😉."하고 예쁘게 모여있지 않다. 따라서, 데이터를 활용하기 위해서는 먼저 데이터를 가공하는 과정이 필요하다.

이러한 업무를 도맡아 하는 직무가 바로 데이터 엔지니어다. 규모가 있는 기업에서는 전문적으로 데이터 정제를 담당하는 데이터 엔지니어들이 있어 데이터 분석가의 업무를 덜어준다. 그러나, 스타트업에서는 데이터 엔지니어가 없는 경우가 있다. 그러한 경우에는 데이터 분석가가 일명 데이터 클렌징이라 하는 데이터 정제 과정을 수행해야 한다.

데이터가 예쁘게 모이도록 하는 방법이 있다. 바로, 데이터 파이프라인 구축. 데이터가 수집될 때부터 일정한 양식을 지정해주면 서랍에 알맞은 물건을 수납하듯 데이터를 모을 수 있다. 이 과정 또한 데이터 엔지니어들의 업무이다.

이해 ↔ 데이터 테이블(Row, Column), 기본키, 데이터 타입

데이터 테이블은 엑셀과 매우 유사하다. Row와 Column으로 구성된 표와 같은 형태이다. 둘 중, Column은 특히 중요하다. 데이터를 하나로 묶어주는 상위 개념이기 때문이다. 따라서, 데이터 테이블에서 가장 먼저 확인해야 할 것이 바로 이 Column이다.

데이터베이스의 유형은 관계형과 비관계형으로 나누어진다. 관계형 데이터베이스에서 중요한 개념은 기본키와 외래키이다. 효율적인 분석을 위해 두 개로 나누어진 테이블을 함께 보기 위해서는 기본키의 지정이 매우 중요하다.

데이터 타입은 문자, 정수, 날짜 등이 있다. Column명은 데이터의 타입에 따라 지정할 수 있다. 예컨대, 구매일자라는 이름을 가진 Column에는 날짜 타입의 데이터가 기록된다.

데이터 분석가는 데이터 테이블을 받았을 때, 이러한 기본 개념들을 숙지해야 한다. 그것이 데이터 분석의 초석이기 때문이다. 기본 개념을 파악해야 비로소 분석 과정이 분명해진다.

분석 ↔ SQL, Python, R

데이터 분석가의 주요 업무이다. SQL을 통해 데이터 테이블을 가공하고 필요한 데이터를 추출한다. Python과 R은 분석 업무를 자동화하기 위해 필요하다. 데이터 커리어 중 가장 개발에서 먼 직종이 데이터 분석가라 할 지라도 효과적인 분석을 위해서 프로그래밍 언어 기술의 숙지는 필수적이다.

시각화 ↔ Google Sheet, Excel, 대시보드(Tableau)

지난 포스팅에서 언급했듯 데이터 분석 결과가 이해관계자에게 효과적으로 전달되기 위해서는 직관적인 형태로 가공되어야 한다. 이해관계자들은 데이터 전문가가 아니다. 따라서, 그들의 이해를 돕기 위해 분석 결과를 시각화 해야 한다. 대시보드는 시각화를 돕는 좋은 도구이다.

스토리텔링 ↔ 파워포인트 등

시각화만으로는 부족하다. 예쁘게 정리된 데이터는 가치를 뽐내기 위해 설득의 도움을 받아야 한다. 아무리 예쁘게 정리된 결과라도 설득력이 떨어지면 사용될 수 없다. 이해관계자가 결과를 납득할 수 있도록 화려하면서 마음을 휘어잡는 언변으로 그들을 설득해야 할 것이다.

이해관계자와의 미팅은 주로 30분 단위로 이루어지는데 15분 간 논의와 피드백 시간을 가진다는 것을 감안하면 통상 15분 안에 그들에게 설명할 기회가 주어진다. 짧은 시간에 원하는 정보를 의도에 맞게 전달하려면 선택과 집중이 필요할 것이다.

🤼‍♀️Technical Data Career

전문적인 데이터 커리어는 크게 세 가지로 구분된다. 데이터 엔지니어(DE), 데이터 분석가(DA), 데이터 사이언티스트(DA).

데이터 엔지니어 ↔ 데이터 클렌징, 데이터 아키텍처, 데이터 파이프라인 구축 등

데이터 엔지니어는 효율적인 데이터 수집을 위해 개발 능력을 발휘하는 직무이다. 앞서 언급했듯 데이터는 예쁘게 모여있지 않다. 예쁜 틀을 통해 가치 있는 데이터를 걸러내야 정돈 된 데이터가 마련될 수 있다. 따라서, 데이터 엔지니어는 예쁜 틀을 만들기 위해 노력하고 그 틀이 바로 데이터 파이프라인이다.

안정화된 인프라 구축도 매우 중요하다. 사람이 실수하는 것보다는 적겠지만 때로는 컴퓨터도 실수를 한다. 오류가 발생하는 것이다. 아니면 컴퓨터도 파업을 하는 걸까? 데이터 엔지니어는 이러한 오류가 발생했을 때, 즉각적으로 상황을 해결해야 한다. 컴퓨터와 협상을 시도한다 인프라가 불안정하면 뒤이어 업무를 수행할 데이터분석가들이 피해를 볼 수 있다. 이러한 환경을 구축하기 위해 늘 노력하는 데이터 엔지니어들에게 감사하는 마음을 가져야겠다는 생각이 들었다. 🙏🙏🙏

데이터 분석가 ↔ KPI 리포트, RCA, 데이터 시각화, 스토리텔링 등

데이터 분석가의 주요 업무는 데이터 분석이다. 말그대로 수많은 데이터 속에서 특유의 역량인 인사이트를 통해 가치 있는 정보를 끄집어 내는 것이 그들의 업무이다. 분석은 여러 과정과 형태를 거친다. 예컨대, 핵심성과지표(KPI)에 따른 분석 혹은 문제의 원인을 발견하는 RCA 등의 종류가 있다. 분석 후에도 업무는 계속 된다. 이해관계자에게 쉽게 읽히는 형태로 제공하기 위한 시각화 과정과 그들의 OK 사인을 받아내기 위한 설득 과정이 필요하다.

데이터 분석가는 세 가지 커리어 중 가장 기획자스러운 직무이다. 데이터 엔지니어가 개발 능력을, 데이터 사이언티스트가 수학과 통계학을 가장 중요시하는 데 반해 데이터 분석가는 도메인 지식을 가장 중요시한다는 점에서 기획자스러운 면모가 돋보인다. 그러나 그렇다고해서 개발 능력과 수학/통계학 지식을 소홀히 해서는 안 될 것이다. 수많은 데이터 분석가가 배출되는 가운데 유능한 데이터 분석가가 되기 위해서는 세 가지 필드를 넘나드는 역량이 필요하기 때문이다. 💪💪💪

데이터 사이언티스트 ↔ 미래 예측(w/ 머신러닝, 딥러닝), 고급 통계 분석, 예측 모델 개발 등

처음 데이터 커리어를 접했을 때, 가장 모호했던 분야가 데이터 사이언티스트였다. 이때, 가장 쉽게 이해할 수 있었던 설명은 대학원생과 유사하다는 것이었다. 그렇다. 그들은 연구원이다. 대학원생처럼 혹은 노예?ㅠㅠ 논문을 읽고, 연구를 진행하며, 때로는 논문을 발표하기도 한다. 그들은 수많은 논문과 최신 정보 등을 접하고 고급 통계 분석과 머신러닝, 딥러닝 등의 도구를 활용하여 미래를 예측한다. 따라서, 예측 모델 개발이 그들의 주요 업무라고 할 수 있다. 아마 데이터 커리어 중에서 가장 난이도 높은 직무가 데이터 사이언티스트일 것이다. 실제로 현업에서는 석사, 박사 출신의 데이터 사이언티스트가 많다고 한다.

한 때, 대학원생을 꿈꾸던 나는 데이터 사이언티스트의 업무를 보며 어려울 것 같다는 생각과 동시에 언젠가는 도전해 보고 싶은 영역이라고 생각했다. 멋있지 않은가. 그 누구보다도 빠르게 최신 정보들을 접하며 고난도의 통계 분석과 머신러닝을 통해 미래를 예측한다니. 분명 어려울 것이다. 하지만 그만큼 가치있는 직무라는 생각이 든다. 👍👍👍

👨‍👩‍👦‍👦 Data Analyst의 종류

현업에 있는 데이터 분석가들은 공통적으로 기회와 문제를 포착하고, 해결책을 제시하며, 분석 결과를 설득력 있게 보고하고 데이터 분석에 관한 전문가(SME: Subject Matter Expert)가 되기를 요구 받는다.

산업이 다양한 만큼 데이터 분석가들도 다양한 분야의 업무를 맡는데 다루는 데이터의 특성에 따라 이들의 종류가 나누어진다. Marketing 분석가들은 디지털 마케팅을 할 때, 수집되는 데이터를 다룬다. 웹사이트 혹은 제품을 웹상에서 다루는 쿠팡 같은 기업에서는 웹 분석가 겸 제품(Product) 분석가가 이와 관련된 데이터를 맡는다. 소비자에게 제품이 배송되는 도중 쌓이는 데이터는 Supply chain 분석가가, 그 배송 과정 자체에 Logic에 관한 데이터는 Logistics 분석가가 다루게 된다. 마지막으로 유저의 성향을 분석하는 Customer/User 분석가도 존재한다. 이처럼 마케팅에서 판매까지 일련의 과정에서 각각의 전문 분석가들이 관련 데이터들을 처리하고 있다.

profile
There's Only One Thing To Do: Learn All We Can

0개의 댓글