멋사 ai 스쿨 TIL - (19)

eve·2022년 10월 13일
0

likeLion

목록 보기
17/45
  1. relplot은 관계, displot은 분포, catplot은 범주.
  2. 특정 컬럼의 값을 다른 컬럼에 매핑하는 시나리오
    (1) 컬럼 1을 가져온다
    (2) 다른 컬럼값을 특정 변수에 담화 딕셔너리화
    (3) 람다를 사용하여 매핑 (안 써도 됨)
    (긴 문자열로 구성되어 있는 경우 줄바꿈 내지는 콤마 등의 특성을 활용하여 슬라이싱 후 변수에 넣어 리스트화 > 딕셔너리화)
  
  연령대코드 정보를 python의 dictionary 형태로 변환한다.
 age_code를 개행문자를 기준으로 나눈 리스트로 바꿉니다.
 새로운 dict를 선언합니다.
 for 문을 이용해 리스트 안의 내용을 하나씩 다룹니다.
 연령대코드와 연령대가 띄어쓰기를 기준으로 구분되어 있습니다.
 띄어쓰기를 기준으로 분할하고 앞 단어는 key, 뒤 단어는 value가 되도록 dict에 삽입합니다.
 최종 dict를 확인합니다.
 
 age_list = age_code.split("\n")
 age_dict = {int(n.split(" ")[0]): n.split(" ")[1] for n in age_list}
 
 또는
 
 df["연령대"] = df ["연령대코드(5세단위)"].map(age_dict)
 
 이렇게 써줘도 됨
  1. info()

info()를 통해서는 데이터프레임의 전체적인 정보인 인덱스 값의 범위, 컬럼 정보, 각 컬럼별 빈도수, 데이터 타입, 메모리 사용량 등의 요약된 정보를 볼 수 있다.

  1. 결측치 비율 구하기
    결측치는 True, False 값을 가지게 되는데 True == 1, False == 0 과 같다.
    따라서 이 값을 다 더해주면 결측치의 수가 되고 평균을 구하면 비율이 된다.
    따라서 결측치의 비율을 구하려면 df.isnull().mean() 을 통해 구할 수 있다.

  2. pandas의 describe()를 통해 알 수 있는 값
    빈도수, 평균, 표준편차, 최솟값, 1사분위수(25%), 2사분위수(50%, 중앙값), 3사분위수(75%), 최댓값
    'count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max'

  3. 상관계수 - pearson, spearman
    상관관계의 정도를 파악하는 상관 계수는 두 변수 간의 연관된 정도를 나타낼 뿐 인과 관계를 설명하는 것은 아니다.

profile
유저가 왜 그랬을까

0개의 댓글