본 자료는 Elice 플랫폼의 자료를 사용하여 정리하였습니다.
프로젝트 준비하기
프로젝트와 데이터 분석
데이터와 정보
- 데이터 : 현실 세계의 일들을 관찰, 측정해서 얻은 값
- 정보 : 데이터를 처리해서 얻는 의미있는 값
데이터 분석이란?
- 데이터를 활용하여 원하는 정보를 얻어내기 위한 일련의 과정
데이터 분석 프로젝트
문제정의 → 가설설정 → 데이터준비 → 데이터분석 → 결과 정리
데이터 분석 시작하기
데이터 분석 프로세스
문제정의
- 현재 풀고자 하는 문제가 무엇인지를 명확히 정의
가설설정
- 문제를 해결하기 위한 데이터 분석의 토대인 가설 설정
- 문제와의 관련성 고려
데이터 준비
- 풀고 싶은 문제에 대한 정보를 담고 있는 데이터셋을 선정
- 데이터 수집 및 전처리 과정
- 데이터 수집
- 풀고 싶은 문제에 대한 정보를 담고있는 데이터셋
- 데이터 전처리
- 데이터 정제
- 빠진 부분, 중복, 이상값제거, 형태변환 등의 초기데이터 전처리 시행
데이터 분석
- 본격적인 데이터 분석
- 데이터 분석 프로젝트의 성공여부는 얼마나 데이터를 이해하고 있느냐에 좌우된다.
- 탐험적 데이터 분석(EDA)
- Exploratory Data Analysis
- 데이터의 특징을 찾고, 숨겨진 패턴을 발견하는 과정
결과 정리
- 분석과정에서 알아낸 인사이트(Insight) 정리
명확한 목표 설정과 목표에 맞는 흐름에 따른 데이터 분석을 진행해야 의미있는 데이터 분석이라 할 수 있다.
Tip 데이터 분석 프로젝트
프로젝트 주제소개
"어떤 테이블을 담당해야 Tip을 가장 많이 받을 수 있을까?"
문제정의하기
Tip 데이터셋 분석을 통해 높은 팁을 받는 테이블의 특징을 살펴보고, 가장 높은 Tip을 받기 위한 전략짜기
가설 설정하기
- 정의한 문제 해결을 위한 가설 설정을 통해 필요한 데이터셋과 데이터 분석방향을 이해할 수 있다.
예시가설1. 인원이 많은 테이블일수록 더 많은 팁을 줄 것이다.
- 가설 설정의 주의점
- 데이터 분석 시각을 너무 좁게 만들 위험성이 있다.
- 문제 해결을 위한 전체적인 방향의 개념으로 활용하되, 가설이 문제의 정답인 것처럼 생각해서는 안된다.
데이터 준비하기
- 설정한 가설을 바탕으로 필요한 데이터셋 선정 및 수집
- 수집한 데이터셋에 대해 이상치제거, 중복제거, 형태변환등의 기본 전처리 진행
데이터 분석하기
- 탐색적 데이터 분석(EDA)를 통해 데이터의 특징 파악
- 파악한 특징을 바탕으로 하여 설정한 가설이 옳았는지 검증하기
결과 정리하기
- 분석 결과 정리 시 주의해야할 점
- 데이터 특징(인사이트) 위주로 정리하기
- 설정한 가설이 옳았는지 검증 결과 정리하기
- 문제 해결을 위해 새롭게 발견한 해결 방안 정리하기