[제로베이스 데이터 취업 스쿨]
▷ 오늘 학습 계획: EDA, SQL 학습과제
EDA 학습과제
raw data 파일이 커서 한꺼번에 보이지 않을 때
pd.set_option('display.max_rows', 500) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 1000)
행과 열의 개수를 튜플 형태로 반환
df.shape
df.info 모두 나오게 설정
df.info(verbose=True, show_counts=True)
결측 데이터 시각화: Missingno 모듈
pandas series를 dataframe으로 변경: reset_index(), to_frame()
건수로 나타난 데이터프레임 → 백분율
np.round(df.div(df.sum())*100, 1)
SQL 학습과제
csv 파일을 SQL 테이블에 저장하기(create_engine, pandas.DataFrame.to_sql)
pymysql로 데이터베이스 연동하기
위도 경도 범위를 벗어나는 데이터 처리
mysql 조건문
IFNULL()
Dateformat
📝 과제 하면서 느낀점
원본 파일의 데이터가 많아서 전처리 과정이 복잡해 보였고 SQL로 테이블을 생성할 때는 예외 처리가 어려웠다.
데이터 분석 방법에 따라 분석 결과가 달라질 수 있어서 어떻게 하면 내가 분석한 내용을 잘 전달할 수 있을지 고민이 됐다.
📝 해설강의 듣고 느낀점
⭐ 다루고자 하는 주제에 대한 이해, 정의, 용어 설정 먼저 하기 ⭐
데이터 시각화 전에 데이터를 파악하는 시간이 거의 없었다. 문제 푸는데만 집중하지 말고 분석해서 나타내려고 하는게 뭔지 파악하고 큰 그림을 보자..
▷ 내일 학습 계획: Tableau 강의