캐글이나 데이콘 등으로 유명한 data science competition형태로 P stage를 진행한다.
데이터 분석의 방향성을 설정할 수 있는 항목. 데이터의 의미, 목적, 산출물, 배경 도메인 등을 통해 의사결정을 도울 수 있다. 특히 해결해야할 문제에 대한 정의가 있으니 본격적인 프로젝트에 진입하기 이전에 Overview를 유심히 살펴보자.
Overview에서 반드시 해야할 것
Problem Definition
"내가 지금 풀어야 할 문제가 무엇인가?"
"이 문제의 Input과 Output은 무엇인가?"
"이 솔루션은 어디서 어떻게 사용되어지는가?"
File 형태, Metadata Field 소개 및 설명(데이터 스펙 요약본)
데이터 분석, 모델 학습, 테스트 셋 추론의 과정을 서버에서 연습 가능
결과물을 제출하고 현재 참가자들의 성능을 공개
문제를 해결하기 위해 질문하고 토의, 공유하는 문화
Data Mining과 Deploy의 단계를 제외한 모든 단계를 경험할 수 있는 형태이다.
EDA(Exploratory Data Analysis)
'탐색적 데이터 분석'이라는 뜻으로, 데이터에 대한 다양한 의미나 정보를 처음부터 알 수 없기 때문에, 데이터를 이해하기 위해 수반되는 과정이다. 문제마다 데이터를 보는 방식이 달라질 수 있기 때문에 데이터를 면밀히 살펴보는 과정이 필요하다.
거창한 코드로 하는 것이 아니다. 데이터를 처음 봤을 때 생기는 다양한 호기심, 질문들을 바탕으로 진행하는 것.
EDA의 목적
- 실제로 어떻게 생겼는가?
- 궁금한 것?
- 주제와의 연관성?
- 알고 싶은 것?
- 주어진 데이터 타입의 특성?
- 메타 데이터의 분포?
Image는 시각적 인식을 표현한 Artifact이다.
Data Analysis - Data Processing - Modeling - Training