EDA, SQL 학습과제_3

YJ·2023년 5월 7일
0

[제로베이스 데이터 취업 스쿨]

▷ 오늘 학습 계획: EDA, SQL 학습과제

Global Terrorism Database

EDA 학습과제

raw data 파일이 커서 한꺼번에 보이지 않을 때

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

행과 열의 개수를 튜플 형태로 반환

df.shape

df.info 모두 나오게 설정

df.info(verbose=True, show_counts=True)

결측 데이터 시각화: Missingno 모듈

pandas series를 dataframe으로 변경: reset_index(), to_frame()

건수로 나타난 데이터프레임 → 백분율

np.round(df.div(df.sum())*100, 1)

Stacked Bar Chart
Matplotlib bar label
pd.crosstab()

SQL 학습과제

csv 파일을 SQL 테이블에 저장하기(create_engine, pandas.DataFrame.to_sql)

pymysql로 데이터베이스 연동하기

위도 경도 범위를 벗어나는 데이터 처리

mysql 조건문

IFNULL()

Dateformat

📝 과제 하면서 느낀점

원본 파일의 데이터가 많아서 전처리 과정이 복잡해 보였고 SQL로 테이블을 생성할 때는 예외 처리가 어려웠다.
데이터 분석 방법에 따라 분석 결과가 달라질 수 있어서 어떻게 하면 내가 분석한 내용을 잘 전달할 수 있을지 고민이 됐다.

📝 해설강의 듣고 느낀점

⭐ 다루고자 하는 주제에 대한 이해, 정의, 용어 설정 먼저 하기 ⭐
데이터 시각화 전에 데이터를 파악하는 시간이 거의 없었다. 문제 푸는데만 집중하지 말고 분석해서 나타내려고 하는게 뭔지 파악하고 큰 그림을 보자..

▷ 내일 학습 계획: Tableau 강의

0개의 댓글