[210203 TIL] 선배와의 만남(데이터 엔지니어)

602go·2021년 2월 4일
0

기록

목록 보기
3/3
post-thumbnail

Today I Learned

written by 602




2020 겨울 선배와의 만남) S사 데이터 엔지니어

1. 데이터분석 직군

  • Performance Marketer

    • metric 정의(CTR, CVR, 체류시간, 1달 간 유입수, ...)
    • A/B Test
    • 레포팅
  • ML Engineer

    • 데이터 파이프라인 구축, 전처리, 모델 적용, 배포, ..
  • Data Engineer(전처리) vs Data Scientist(모델링)

    • 사람이 많은 팀은 E와 S가 구분되어 있는 경우가 많음
    • 요즘은 그 구분이 모호해지고 있음
    • 데이터를 활용하는 사람이 데이터가 어떻게 수집되는지 알아야 함
    • 요즘은 scientist들이 engineer역량(Spark 등)을 대부분 가지고 있음
  • 딥러닝 모델 많이 사용 하는지?

    • LightGBM(DT 기반)
    • 이걸로 못풀면(이미지 분류 등) 딥러닝을 쓸 때도 있음


2. 산업관련 Q&A

2-1. 활용하는 데이터 형태

  • 대부분 정형 데이터

    • 식지(통신 서비스 가입시)에서 수집하는 demo >> 성별, 나이, 연령, 생일 등 >> 동의자 한해서 활용
    • 서비스와 상호작용으로 생기는 데이터: 11번가 구매이력, Tmap, T전화 >> 통합동의 받아야 활용 가능(결측치 다수 존재)
    • 가공 결과물: score화된 데이터 >> 11번가 구매예측 스코어, 직장인 확률 스코어, 추정 직장 위치
  • 비정형 데이터

    • 스마트 팩토리: 이미지, 시계열 >> score화
      • 도메인이 한정되어있어 범용적으로 활용되지는 않음
    • NUGU: AI 비서 >> 텍스트, 음성

2-2. Data Scientist 수요 및 전망

  • SKT: 수시 채용에서 fit이 잘 맞는 직군이 뜨면 지원하는것을 추천
  • 퍼포먼스 마케터: 고객과 밀접한 서비스를 제공하는 기술 기반 회사에서 수요가 높음
    • 쿠팡: Ad Test를 일주일에 최소 50개씩 돌림
    • 토스/네이버 웹툰 등
    • 도메인 경험과 서비스에 대한 애정이 중요 (우리 도메인에서 해당 수치가 무슨 의미를 가지는지 )
  • ML enginner: IT 기업 대부분에서 필요, 특히 대용량/실시간 데이터를 다루는 기업들에서 ML Engineer에 대한 수요 많음
    • 공급이 뒤따르지 못하는 이유: 필요한 스킬셋이 많음
      • 통계/컴퓨터 기본지식, ML, 분산처리(Hive, Spark), 클라우드(AWS, GCP)
  • 수요가 많은 만큼 적절한 역량을 기르는게 중요

2-3. 클라우드 직무 수요

  • SKT: 마이크로소프트와 협업 강화, 조직 명예 반영 >> 스킬셋의 중요도가 높아질 것
  • 그렇다고 클라우드 전문가를 뽑는 것은 아님
    • 관련 전문 업체들 이미 존재: 베스핀글로벌, 메가존클라우드, UWS >> 클라우드 아키텍쳐 및 컨설팅
  • 기술 관련 직무들에서 기본 지식은 좋은 +alpha 정도가 될 것으로 보임
    • AWS에서 storage로 제공하는 서비스가 S3
    • 블로그 글 >> 기본적인 클라우드 정보 탐색 >> 자기 직무랑 연관시킬 수 있으면 best

3. 직무 관련

3-1. ML engineer로서 갖춰야하는 전공 지식 수준, 석사 학위의 필요성?

  • 석사: 기본적 스킬셋 향상, 안전한 길(안정망일뿐, 보장해주지는 않음, 실력을 증명해내야함)
    • 랩 by 랩: 서버, GPU, spark, notion/slack(협업 툴), 코스웍(과목)
    • 2년 투자 필요

3-2. 데이터를 활용한 타겟 마케팅 서비스 제공 업무에 대한 detail

  • 팀 구성
    • 인프라 관리 & 분석 Tool 제공
      • VM, workflow, Hive 분석가 대상으로 제공
      • 현업 대상으로도 제공(간편 레포팅)
    • 다른 분석가들이 쓸 수 있는 스코어를 만드는 팀
    • (수요 많음) 특정 도메인, 혹은 사업에서 발생하는 문제를 데이터 기반으로 푸는 팀 >> 스마트 팩토리, 광고, 금융, 통신(요금제 추천)
    • 사업팀, 기획팀, 마케팅팀 >> 데이터 기반의 업무 수행(SQL)

3-3. 필요한 역량

  • 퍼포먼스 마케터

    • 기본: SQL(할 줄 아느냐 모르느냐가 큰 차이. 기본만 해도 good)

      • partitioned table: show create table, left outer join, ...
      • 기본 강의 수준(Coursera, Udemy)
    • 실험 설계 (ex. 실험군 대조군 설정)

    • metric 정의(Domain에 대한 지식)

    • EDA 역량(ex. 평균? median? 분위수?): 다양한 데이터셋 경험

    • (+ 개발자/엔지니어와 Comm.(다양하게 얕은 지식): API, 프론트, 백, ...)

    • 공부방법

      • SQL: 기초 강의

      • 다양한 분야에서 다양한 문제를 풀면서 질문을 던져 보기

        • kaggle Notebook의 분석 흐름을 따라가 보는 것
  • ML Engineer

    • 기본: SQL
    • 플러스알파: Hive, Spark 등의 역량을 확보할 수 있으면 좋음
    • 분석 알고리즘에 대한 detail, 언제 이런 알고리즘을 사용하는지
      • ex) DT 기반 알고리즘은 언제 쓰면 적절하고, 언제 쓰면 별로인지?
    • 플러스알파: 대용량/실시간/분산처리, Workflow(airflow 사용 경험), Cloud
  • 공통

    • 대학원 진학
    • 공모전 수상하면 서류에 도움 될 것
      • Kaggle 류: 명확한 평가 metric 개선이 중요 >> 전처리, domain-feature set, 하이퍼파라미터 튜닝
      • L point 공모전 류: 레포트를 잘써야함, 신기술 쓰면 좋음, Data-base Insight(Twitter Crawling)
        • 추천문제: CF류, RNN류, FM류

3-4. Data Scientist 직무에서 주로 하는 일

  • 퍼포먼스 마케터 예시: UI 개편 실험 설계 > seg 구분해서 실험 진행 >> 결과 분석 레포팅 & 현업 인터뷰 >> UI 개편안 반영
  • ML 엔지니어 예시: 데이터 파이프라인 구축되어있다고 가정 >> 문제 정의 >> 전처리 >> 알고리즘 비교 분석 >> 실제 테스트 >> 결과 분석 레포팅 & 개선안 >> 문제 재정의 혹은 상용 배포
  • 논문 구현 및 적용도 하나요? yes! but 팀 by 팀
    • 이미 솔루션이 많이 나온 분야 ex. MAB 문제: Thompson Sampling >> customize
    • 회사마다 데이터 현황 다르고 요구사항도 다르다(ex> Latency)



평소 관심있던 데이터 관련 직군에 대해 자세한 이야기를 들을 수 있어서 좋은 시간이었다. 이번 겨울 선배와의 만남 프로그램에 참여하며 여러 이야기를 들으면서 느낀 점은 역시 '정해진 길은 없다'는 것이다. 내가 그 길을 가지 않는다고 해서 아쉬워할 이유도 없고, 반대로 내가 가는 길에 대해서 끊임없이 의심하면서 스스로를 괴롭히지 않는게 중요하다는 것을 느꼈다.

어떤 결정을 내리든 묵묵히 해야할 것을 하며 스스로를 이끌어나가기!

0개의 댓글