연령대코드 정보를 python의 dictionary 형태로 변환한다.
age_code를 개행문자를 기준으로 나눈 리스트로 바꿉니다.
새로운 dict를 선언합니다.
for 문을 이용해 리스트 안의 내용을 하나씩 다룹니다.
연령대코드와 연령대가 띄어쓰기를 기준으로 구분되어 있습니다.
띄어쓰기를 기준으로 분할하고 앞 단어는 key, 뒤 단어는 value가 되도록 dict에 삽입합니다.
최종 dict를 확인합니다.
age_list = age_code.split("\n")
age_dict = {int(n.split(" ")[0]): n.split(" ")[1] for n in age_list}
또는
df["연령대"] = df ["연령대코드(5세단위)"].map(age_dict)
이렇게 써줘도 됨
info()를 통해서는 데이터프레임의 전체적인 정보인 인덱스 값의 범위, 컬럼 정보, 각 컬럼별 빈도수, 데이터 타입, 메모리 사용량 등의 요약된 정보를 볼 수 있다.
결측치 비율 구하기
결측치는 True, False 값을 가지게 되는데 True == 1, False == 0 과 같다.
따라서 이 값을 다 더해주면 결측치의 수가 되고 평균을 구하면 비율이 된다.
따라서 결측치의 비율을 구하려면 df.isnull().mean() 을 통해 구할 수 있다.
pandas의 describe()를 통해 알 수 있는 값
빈도수, 평균, 표준편차, 최솟값, 1사분위수(25%), 2사분위수(50%, 중앙값), 3사분위수(75%), 최댓값
'count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max'
상관계수 - pearson, spearman
상관관계의 정도를 파악하는 상관 계수는 두 변수 간의 연관된 정도를 나타낼 뿐 인과 관계를 설명하는 것은 아니다.