데이터 사이언티스트란
명확한 정의는 없으니, 스스로를 잘 브랜딩 하자.
특성 기술을 할 줄 아는 사람으로 인지되는 걸 지양하자. 요새는 너무 많음.
스토리가 필요하다. 과거의 직무.
기승전결 중 기와 결이 중요. 어떤 데이터를 분석했는지는 필요 없음.
어떤 문제를 가졌고, 어떤 문제를 풀었고 어떤 결과를 만들어냈는가가 중요.
DS는 예측을 한다.
과거의 데이터에 기초해서 예측을 한다.
비슷한 데이터셋을 찾아서 했는데 진짜 없으면 상상한다.
상상 = 가정을 구체화하는 것이 모델링
모델링은 세계관을 만드는 과정.
그 모델링에는 등장인물과(변수), 규칙(알고리즘)가 필요.
근데 정규분포를 따른다는 근본 가정이 어차피 틀렸으니까, 얼마나 덜 틀리냐가 더 중요. 맞힌다기 보다 가까워지는 과정.
모든 재료를 다 넣는다고 맛있지 않은 것처럼, 변수가 많으면 모형의 설명력은 높아지지만 우리가 얻을 수 있는 인사이트는 감소. 보통 10개 미만이면 충분.
세상에는 white box(decision tree)와 black box(random forest)가 존재.
white box 모델은 해석이 중요. black box 모델은 성능이 중요.
최근 black box 모델을 해석하고 싶어하는 경향이 강해짐. -> XAI(설명가능한 인공지능)
XAI는 모델에게 질문을 해서 '어떤 변수가 제일 중요해?' 등, 모델로부터 얻은 답으로 해석을 하는 것.
데이터 사이언티스트는 Analytics
ML엔지니어는 Operation
데이터 사이언티스트는 극단적으로 컨셉카 만드는 사람들. 데이터 엔지니어는 엔진 만드는 사람들. 둘 다 잘 하면 유니콘🦄

Analytics에서 제일 중요한 건 reporting랑 visualizing reporting에서는 알고리즘/통계/ML 이런거 NO 필요. 아무도 관심 없음.
대시보드는 지양하고 한 판에 그려라. 대시보드는 모니터링 할 때만 씀.
report에 인사이트가 부족하면? 드릴 다운 = 데이터를 파본다. 우리가 받은 데이터는 평균 데이터가 많으니까 다시 원본으로 파고 들어간다.

다차원분석이란? 여러 테이블을 한 번에 합쳐서 분석. 원래는 중복이 많아지고 느려지니까 안 썼는데 이젠 빅데이터 시대라 데이터가 워낙 중요하니까 다 때려박고 모든 걸 통합해서 본다. 대신 속도는 겁나 느려짐.

설명은 어떻게 해야할까? 설명은 무조건 인간적인 언어로. 쉬운 말로 안 나온다는 건 잘 모르니까


스토리 life sycle, 기승전결 등


높음QnA
요즘 데이터를 찾는 게 어려움. 그래서 어떻게 요즘 데이터를 확보하는지가 관건. 데이터 파이프라인이 주목을 받고 있음. 기타 질문 사항
정리 감사합니다~!