Today I Learned
written by 602
2020 겨울 선배와의 만남) S사 데이터 엔지니어
1. 데이터분석 직군
2. 산업관련 Q&A
2-1. 활용하는 데이터 형태
-
대부분 정형 데이터
- 식지(통신 서비스 가입시)에서 수집하는 demo >> 성별, 나이, 연령, 생일 등 >> 동의자 한해서 활용
- 서비스와 상호작용으로 생기는 데이터: 11번가 구매이력, Tmap, T전화 >> 통합동의 받아야 활용 가능(결측치 다수 존재)
- 가공 결과물: score화된 데이터 >> 11번가 구매예측 스코어, 직장인 확률 스코어, 추정 직장 위치
-
비정형 데이터
- 스마트 팩토리: 이미지, 시계열 >> score화
- 도메인이 한정되어있어 범용적으로 활용되지는 않음
- NUGU: AI 비서 >> 텍스트, 음성
2-2. Data Scientist 수요 및 전망
- SKT: 수시 채용에서 fit이 잘 맞는 직군이 뜨면 지원하는것을 추천
- 퍼포먼스 마케터: 고객과 밀접한 서비스를 제공하는 기술 기반 회사에서 수요가 높음
- 쿠팡: Ad Test를 일주일에 최소 50개씩 돌림
- 토스/네이버 웹툰 등
- 도메인 경험과 서비스에 대한 애정이 중요 (우리 도메인에서 해당 수치가 무슨 의미를 가지는지 )
- ML enginner: IT 기업 대부분에서 필요, 특히 대용량/실시간 데이터를 다루는 기업들에서 ML Engineer에 대한 수요 많음
- 공급이 뒤따르지 못하는 이유: 필요한 스킬셋이 많음
- 통계/컴퓨터 기본지식, ML, 분산처리(Hive, Spark), 클라우드(AWS, GCP)
- 수요가 많은 만큼 적절한 역량을 기르는게 중요
2-3. 클라우드 직무 수요
- SKT: 마이크로소프트와 협업 강화, 조직 명예 반영 >> 스킬셋의 중요도가 높아질 것
- 그렇다고 클라우드 전문가를 뽑는 것은 아님
- 관련 전문 업체들 이미 존재: 베스핀글로벌, 메가존클라우드, UWS >> 클라우드 아키텍쳐 및 컨설팅
- 기술 관련 직무들에서 기본 지식은 좋은 +alpha 정도가 될 것으로 보임
- AWS에서 storage로 제공하는 서비스가 S3
- 블로그 글 >> 기본적인 클라우드 정보 탐색 >> 자기 직무랑 연관시킬 수 있으면 best
3. 직무 관련
3-1. ML engineer로서 갖춰야하는 전공 지식 수준, 석사 학위의 필요성?
- 석사: 기본적 스킬셋 향상, 안전한 길(안정망일뿐, 보장해주지는 않음, 실력을 증명해내야함)
- 랩 by 랩: 서버, GPU, spark, notion/slack(협업 툴), 코스웍(과목)
- 2년 투자 필요
3-2. 데이터를 활용한 타겟 마케팅 서비스 제공 업무에 대한 detail
- 팀 구성
- 인프라 관리 & 분석 Tool 제공
- VM, workflow, Hive 분석가 대상으로 제공
- 현업 대상으로도 제공(간편 레포팅)
- 다른 분석가들이 쓸 수 있는 스코어를 만드는 팀
- (수요 많음) 특정 도메인, 혹은 사업에서 발생하는 문제를 데이터 기반으로 푸는 팀 >> 스마트 팩토리, 광고, 금융, 통신(요금제 추천)
- 사업팀, 기획팀, 마케팅팀 >> 데이터 기반의 업무 수행(SQL)
3-3. 필요한 역량
-
퍼포먼스 마케터
-
기본: SQL(할 줄 아느냐 모르느냐가 큰 차이. 기본만 해도 good)
- partitioned table: show create table, left outer join, ...
- 기본 강의 수준(Coursera, Udemy)
-
실험 설계 (ex. 실험군 대조군 설정)
-
metric 정의(Domain에 대한 지식)
-
EDA 역량(ex. 평균? median? 분위수?): 다양한 데이터셋 경험
-
(+ 개발자/엔지니어와 Comm.(다양하게 얕은 지식): API, 프론트, 백, ...)
-
공부방법
-
ML Engineer
- 기본: SQL
- 플러스알파: Hive, Spark 등의 역량을 확보할 수 있으면 좋음
- 분석 알고리즘에 대한 detail, 언제 이런 알고리즘을 사용하는지
- ex) DT 기반 알고리즘은 언제 쓰면 적절하고, 언제 쓰면 별로인지?
- 플러스알파: 대용량/실시간/분산처리, Workflow(airflow 사용 경험), Cloud
-
공통
- 대학원 진학
- 공모전 수상하면 서류에 도움 될 것
- Kaggle 류: 명확한 평가 metric 개선이 중요 >> 전처리, domain-feature set, 하이퍼파라미터 튜닝
- L point 공모전 류: 레포트를 잘써야함, 신기술 쓰면 좋음, Data-base Insight(Twitter Crawling)
3-4. Data Scientist 직무에서 주로 하는 일
- 퍼포먼스 마케터 예시: UI 개편 실험 설계 > seg 구분해서 실험 진행 >> 결과 분석 레포팅 & 현업 인터뷰 >> UI 개편안 반영
- ML 엔지니어 예시: 데이터 파이프라인 구축되어있다고 가정 >> 문제 정의 >> 전처리 >> 알고리즘 비교 분석 >> 실제 테스트 >> 결과 분석 레포팅 & 개선안 >> 문제 재정의 혹은 상용 배포
- 논문 구현 및 적용도 하나요? yes! but 팀 by 팀
- 이미 솔루션이 많이 나온 분야 ex. MAB 문제: Thompson Sampling >> customize
- 회사마다 데이터 현황 다르고 요구사항도 다르다(ex> Latency)
평소 관심있던 데이터 관련 직군에 대해 자세한 이야기를 들을 수 있어서 좋은 시간이었다. 이번 겨울 선배와의 만남 프로그램에 참여하며 여러 이야기를 들으면서 느낀 점은 역시 '정해진 길은 없다'는 것이다. 내가 그 길을 가지 않는다고 해서 아쉬워할 이유도 없고, 반대로 내가 가는 길에 대해서 끊임없이 의심하면서 스스로를 괴롭히지 않는게 중요하다는 것을 느꼈다.
어떤 결정을 내리든 묵묵히 해야할 것을 하며 스스로를 이끌어나가기!