import numpy as np
import pandas as pd
# 데이터 읽기
crime_raw_data = pd.read_csv("../data/02. crime_in_Seoul.csv", thousands=",", encoding="euc-kr") # thousands 숫자값을 문자로 인식할 수 있어서 설정
crime_raw_data.head()
숫자들이 콤마(,)를 사용하고 있어서 문자로 인식될 수 있다.
따라서 천단위 구분(thousands-',')이라고 알려주면 콤마를 제거하고 숫자형으로 읽는다.
crime_raw_data.info()
crime_raw_data["죄종"].unique()
nan 값이 들어가 있다.
crime_raw_data["죄종"].isnull()
#isnull이라는 메서드를 이용하면 null값들이 얼마나 있는지 boolean 타입으로 나옴
crime_raw_data[crime_raw_data["죄종"].isnull()]
# 원래 crime_raw_data에 마스킹을 씌어주면 데이터 프레임 형태로 나옴
nan값이 훨씬 더 많으니 nan 값이 아닌 값들만 가져와서 데이터 분석을 하도록 판단해야 한다.
crime_raw_data[crime_raw_data["죄종"].notnull()]
crime_raw_data = crime_raw_data[crime_raw_data["죄종"].notnull()]
crime_raw_data.info()
아무 문제 없는 것을 확인할 수 있다.
crime_raw_data.head()
crime_raw_data.tail()