[제로베이스 데이터 취업 스쿨]
▷ 오늘 학습 계획: EDA 테스트
DataFrame 불러오기 & 전처리
index 정리, 컬럼명 변경, 천단위 구분자 제거, data type 변경
원하는 정보 얻기
Pandas DataFrame 기능, Pandas의 pivot_table 메소드 활용
조건에 맞는 컬럼 생성 및 정렬
피어슨 상관계수 행렬(Correlation matrix) 구하기
- 상관계수(correlation coefficient)
두 변수가 함께 변하는 정도를 -1 ~ +1 범위의 수로 나타낸 것- 상관계수 행렬(Correlation Matrix)
변수간 상관계수를 보여주는 행렬시각화
barh plot, PIE chart, Box plot, Scatter plot with Regression Line
DataFrame 불러오기 & 기초 전처리
pickle 파일 불러오기, DataFrame 합치기, 수정하기
전처리
Target Data 수정하기
조건에 맞게 특정 Column의 Data 수정
수정한 Column의 데이터를 변환하여 새로운 Column 생성Mapping
조건을 만족하는 값을 찾고 그 값에 해당하는 DataFrame 구하기
📝 두 번째 테스트가 훨씬 어려웠다. Tabula로 PDF 파일을 읽어오는 과정부터 오류가 나왔다. 구글링을 몇시간이나 했는데도 해결 방법을 찾지 못했고 pickle 파일을 불러와서 테스트를 진행했다.
문제는 7개였는데 한 문제 넘어가는 것도 쉽지 않았다. 중간에 한 문제는 반복문을 잘못 작성했는데도 정답으로 나왔고 결과값을 보고 코드를 수정했다. 그리고 문제를 풀기 위한 예시도 같이 있었는데, 예시를 보고도 이해가 안 되는 문제가 있어서 한참 고민했다. 어려웠지만 리스트 자료구조를 다루는 연습이 많이 됐다.
이번 주는 mySQL 설치, Tabula 등 오류가 많이 나왔고 해결하는데 시간이 오래 걸렸다. 한 주에 과제랑 테스트 2개까지 다 하려다 보니 힘들었다.
▷ 내일 학습 계획: EDA 학습과제