EDA 테스트_1,2

YJ·2023년 4월 16일

[제로베이스 데이터 취업 스쿨]

▷ 오늘 학습 계획: EDA 테스트

테스트1

DataFrame 불러오기 & 전처리

index 정리, 컬럼명 변경, 천단위 구분자 제거, data type 변경

원하는 정보 얻기

Pandas DataFrame 기능, Pandas의 pivot_table 메소드 활용
조건에 맞는 컬럼 생성 및 정렬
피어슨 상관계수 행렬(Correlation matrix) 구하기

상관계수(correlation coefficient)
두 변수가 함께 변하는 정도를 -1 ~ +1 범위의 수로 나타낸 것

상관계수 행렬(Correlation Matrix)
변수간 상관계수를 보여주는 행렬

시각화

barh plot, PIE chart, Box plot, Scatter plot with Regression Line

테스트2

DataFrame 불러오기 & 기초 전처리

pickle 파일 불러오기, DataFrame 합치기, 수정하기

전처리

Target Data 수정하기
조건에 맞게 특정 Column의 Data 수정
수정한 Column의 데이터를 변환하여 새로운 Column 생성

Mapping

조건을 만족하는 값을 찾고 그 값에 해당하는 DataFrame 구하기

📝 두 번째 테스트가 훨씬 어려웠다. Tabula로 PDF 파일을 읽어오는 과정부터 오류가 나왔다. 구글링을 몇시간이나 했는데도 해결 방법을 찾지 못했고 pickle 파일을 불러와서 테스트를 진행했다.
문제는 7개였는데 한 문제 넘어가는 것도 쉽지 않았다. 중간에 한 문제는 반복문을 잘못 작성했는데도 정답으로 나왔고 결과값을 보고 코드를 수정했다. 그리고 문제를 풀기 위한 예시도 같이 있었는데, 예시를 보고도 이해가 안 되는 문제가 있어서 한참 고민했다. 어려웠지만 리스트 자료구조를 다루는 연습이 많이 됐다.
이번 주는 mySQL 설치, Tabula 등 오류가 많이 나왔고 해결하는데 시간이 오래 걸렸다. 한 주에 과제랑 테스트 2개까지 다 하려다 보니 힘들었다.

▷ 내일 학습 계획: EDA 학습과제

EDA 테스트_1,2

테스트1

DataFrame 불러오기 & 전처리

원하는 정보 얻기

시각화

테스트2

DataFrame 불러오기 & 기초 전처리

전처리

Mapping

팀스터디_5

EDA 학습과제_2

0개의 댓글