Boostcamp Pstage Day1(1, 2강)

Dae Hee Lee·2021년 8월 23일
0

BoostCamp Pstage

목록 보기
1/9

Competition

0. Introduction

캐글이나 데이콘 등으로 유명한 data science competition형태로 P stage를 진행한다.

1. Overview

데이터 분석의 방향성을 설정할 수 있는 항목. 데이터의 의미, 목적, 산출물, 배경 도메인 등을 통해 의사결정을 도울 수 있다. 특히 해결해야할 문제에 대한 정의가 있으니 본격적인 프로젝트에 진입하기 이전에 Overview를 유심히 살펴보자.

Overview에서 반드시 해야할 것

Problem Definition

"내가 지금 풀어야 할 문제가 무엇인가?"
"이 문제의 Input과 Output은 무엇인가?"
"이 솔루션은 어디서 어떻게 사용되어지는가?"

2. Data Description

File 형태, Metadata Field 소개 및 설명(데이터 스펙 요약본)

3. Notebook

데이터 분석, 모델 학습, 테스트 셋 추론의 과정을 서버에서 연습 가능

4. Submission & Leaderboard

결과물을 제출하고 현재 참가자들의 성능을 공개

5. Discussion

문제를 해결하기 위해 질문하고 토의, 공유하는 문화

6. In Competition


Data Mining과 Deploy의 단계를 제외한 모든 단계를 경험할 수 있는 형태이다.

EDA

EDA란?

EDA(Exploratory Data Analysis)
'탐색적 데이터 분석'이라는 뜻으로, 데이터에 대한 다양한 의미나 정보를 처음부터 알 수 없기 때문에, 데이터를 이해하기 위해 수반되는 과정이다. 문제마다 데이터를 보는 방식이 달라질 수 있기 때문에 데이터를 면밀히 살펴보는 과정이 필요하다.

거창한 코드로 하는 것이 아니다. 데이터를 처음 봤을 때 생기는 다양한 호기심, 질문들을 바탕으로 진행하는 것.

EDA의 목적

  • 실제로 어떻게 생겼는가?
  • 궁금한 것?
  • 주제와의 연관성?
  • 알고 싶은 것?
  • 주어진 데이터 타입의 특성?
  • 메타 데이터의 분포?

Image Classification

Image

Image는 시각적 인식을 표현한 Artifact이다.

Model

Baseline code

Data Analysis - Data Processing - Modeling - Training

profile
Today is the day

0개의 댓글