[210203 TIL] 선배와의 만남(데이터 엔지니어)

602go·2021년 2월 4일

TIL 기록

기록

목록 보기

3/3

Today I Learned

written by 602

2020 겨울 선배와의 만남) S사 데이터 엔지니어

1. 데이터분석 직군

Performance Marketer
- metric 정의(CTR, CVR, 체류시간, 1달 간 유입수, ...)
- A/B Test
- 레포팅
ML Engineer
- 데이터 파이프라인 구축, 전처리, 모델 적용, 배포, ..
Data Engineer(전처리) vs Data Scientist(모델링)
- 사람이 많은 팀은 E와 S가 구분되어 있는 경우가 많음
- 요즘은 그 구분이 모호해지고 있음
- 데이터를 활용하는 사람이 데이터가 어떻게 수집되는지 알아야 함
- 요즘은 scientist들이 engineer역량(Spark 등)을 대부분 가지고 있음
딥러닝 모델 많이 사용 하는지?
- LightGBM(DT 기반)
- 이걸로 못풀면(이미지 분류 등) 딥러닝을 쓸 때도 있음

2. 산업관련 Q&A

2-1. 활용하는 데이터 형태

대부분 정형 데이터
- 식지(통신 서비스 가입시)에서 수집하는 demo >> 성별, 나이, 연령, 생일 등 >> 동의자 한해서 활용
- 서비스와 상호작용으로 생기는 데이터: 11번가 구매이력, Tmap, T전화 >> 통합동의 받아야 활용 가능(결측치 다수 존재)
- 가공 결과물: score화된 데이터 >> 11번가 구매예측 스코어, 직장인 확률 스코어, 추정 직장 위치
비정형 데이터
- 스마트 팩토리: 이미지, 시계열 >> score화
  - 도메인이 한정되어있어 범용적으로 활용되지는 않음
- NUGU: AI 비서 >> 텍스트, 음성

2-2. Data Scientist 수요 및 전망

SKT: 수시 채용에서 fit이 잘 맞는 직군이 뜨면 지원하는것을 추천
퍼포먼스 마케터: 고객과 밀접한 서비스를 제공하는 기술 기반 회사에서 수요가 높음
- 쿠팡: Ad Test를 일주일에 최소 50개씩 돌림
- 토스/네이버 웹툰 등
- 도메인 경험과 서비스에 대한 애정이 중요 (우리 도메인에서 해당 수치가 무슨 의미를 가지는지 )
ML enginner: IT 기업 대부분에서 필요, 특히 대용량/실시간 데이터를 다루는 기업들에서 ML Engineer에 대한 수요 많음
- 공급이 뒤따르지 못하는 이유: 필요한 스킬셋이 많음
  - 통계/컴퓨터 기본지식, ML, 분산처리(Hive, Spark), 클라우드(AWS, GCP)
수요가 많은 만큼 적절한 역량을 기르는게 중요

2-3. 클라우드 직무 수요

SKT: 마이크로소프트와 협업 강화, 조직 명예 반영 >> 스킬셋의 중요도가 높아질 것
그렇다고 클라우드 전문가를 뽑는 것은 아님
- 관련 전문 업체들 이미 존재: 베스핀글로벌, 메가존클라우드, UWS >> 클라우드 아키텍쳐 및 컨설팅
기술 관련 직무들에서 기본 지식은 좋은 +alpha 정도가 될 것으로 보임
- AWS에서 storage로 제공하는 서비스가 S3
- 블로그 글 >> 기본적인 클라우드 정보 탐색 >> 자기 직무랑 연관시킬 수 있으면 best

3. 직무 관련

3-1. ML engineer로서 갖춰야하는 전공 지식 수준, 석사 학위의 필요성?

석사: 기본적 스킬셋 향상, 안전한 길(안정망일뿐, 보장해주지는 않음, 실력을 증명해내야함)
- 랩 by 랩: 서버, GPU, spark, notion/slack(협업 툴), 코스웍(과목)
- 2년 투자 필요

3-2. 데이터를 활용한 타겟 마케팅 서비스 제공 업무에 대한 detail

팀 구성
- 인프라 관리 & 분석 Tool 제공
  - VM, workflow, Hive 분석가 대상으로 제공
  - 현업 대상으로도 제공(간편 레포팅)
- 다른 분석가들이 쓸 수 있는 스코어를 만드는 팀
- (수요 많음) 특정 도메인, 혹은 사업에서 발생하는 문제를 데이터 기반으로 푸는 팀 >> 스마트 팩토리, 광고, 금융, 통신(요금제 추천)
- 사업팀, 기획팀, 마케팅팀 >> 데이터 기반의 업무 수행(SQL)

3-3. 필요한 역량

퍼포먼스 마케터
- 기본: SQL(할 줄 아느냐 모르느냐가 큰 차이. 기본만 해도 good)
  - partitioned table: show create table, left outer join, ...
  - 기본 강의 수준(Coursera, Udemy)
- 실험 설계 (ex. 실험군 대조군 설정)
- metric 정의(Domain에 대한 지식)
- EDA 역량(ex. 평균? median? 분위수?): 다양한 데이터셋 경험
- (+ 개발자/엔지니어와 Comm.(다양하게 얕은 지식): API, 프론트, 백, ...)
- 공부방법
  - SQL: 기초 강의
  - 다양한 분야에서 다양한 문제를 풀면서 질문을 던져 보기
    - kaggle Notebook의 분석 흐름을 따라가 보는 것

ML Engineer
- 기본: SQL
- 플러스알파: Hive, Spark 등의 역량을 확보할 수 있으면 좋음
- 분석 알고리즘에 대한 detail, 언제 이런 알고리즘을 사용하는지
  - ex) DT 기반 알고리즘은 언제 쓰면 적절하고, 언제 쓰면 별로인지?
- 플러스알파: 대용량/실시간/분산처리, Workflow(airflow 사용 경험), Cloud
공통
- 대학원 진학
- 공모전 수상하면 서류에 도움 될 것
  - Kaggle 류: 명확한 평가 metric 개선이 중요 >> 전처리, domain-feature set, 하이퍼파라미터 튜닝
  - L point 공모전 류: 레포트를 잘써야함, 신기술 쓰면 좋음, Data-base Insight(Twitter Crawling)
    - 추천문제: CF류, RNN류, FM류

3-4. Data Scientist 직무에서 주로 하는 일

퍼포먼스 마케터 예시: UI 개편 실험 설계 > seg 구분해서 실험 진행 >> 결과 분석 레포팅 & 현업 인터뷰 >> UI 개편안 반영
ML 엔지니어 예시: 데이터 파이프라인 구축되어있다고 가정 >> 문제 정의 >> 전처리 >> 알고리즘 비교 분석 >> 실제 테스트 >> 결과 분석 레포팅 & 개선안 >> 문제 재정의 혹은 상용 배포
논문 구현 및 적용도 하나요? yes! but 팀 by 팀
- 이미 솔루션이 많이 나온 분야 ex. MAB 문제: Thompson Sampling >> customize
- 회사마다 데이터 현황 다르고 요구사항도 다르다(ex> Latency)

평소 관심있던 데이터 관련 직군에 대해 자세한 이야기를 들을 수 있어서 좋은 시간이었다. 이번 겨울 선배와의 만남 프로그램에 참여하며 여러 이야기를 들으면서 느낀 점은 역시 '정해진 길은 없다'는 것이다. 내가 그 길을 가지 않는다고 해서 아쉬워할 이유도 없고, 반대로 내가 가는 길에 대해서 끊임없이 의심하면서 스스로를 괴롭히지 않는게 중요하다는 것을 느꼈다.

어떤 결정을 내리든 묵묵히 해야할 것을 하며 스스로를 이끌어나가기!

602go

이전 포스트