22.04.27 PandasModule 실습 - concat, 정렬, 데이터 정렬

최고고·2022년 4월 27일
0

csv 파일 불러오기

데이터개수세기 - 결측치를 알 수 있다.

열값을 인덱싱해오면 Series클래스(1차원형태)가 된다

정렬


  • sort_values()
    기본값이 오름차순, 결측치(오름,내림 무관하게) 는 맨 아래로 가게됨
    ascending=False로 하면 내림차순 정렬이 됨

    특정 컬럼 기준 : by = ''

    기준이 여러개일 때, 리스트형태로 [] 대괄호로 묶어줌

결측치 채우기

  • NaN값을 0으로 채워줌 -> 원본데이터가 바뀌진 않음
  • inplace = True 일 때 원본에도 적용할 수 있다.

중복데이터

  • .value_counts()

csv 파일 불러오기

  • 컬럼별 개수 불러오기
  • .head() #앞에서 5개(기본값), 개수 지정할 수 있음
  • .tail() #끝에서 5개
  • 그룹별 중복제거

    .value_counts()

카테고리 생성



범위 해당이 안되는 데이터는 NaN으로 나옴
범위를 아래처럼 바꿔주자


type- 타입확인, categories-인덱스확인할 수 있음

  • DataFrame으로 만들어줌

train 데이터에 나이별 카테고리 만들기

  • 위의 구간, 라벨을 가져와서 적용하기
  • DataFrame에 담아줌

    각 라벨별 개수 구해줌
    train에 새로운 컬럼 추가해줌
  • 컬럼 추가된 모습

    Age로 개수 구했을 때 보기어려운 자료가 카테고리화 해서 보기 쉬워짐

새로운 csv 파일 불러옴

  • 인덱스 컬럼, 인코딩 해주기
  • 합계구하는 함수 .sum()
    기본값 : 컬럼별 합계
    순위보는 함수로 학급별 순위 볼 수 있음
    반대로 행 별 합계를 보고싶을 때 sum() 안에 axis = 1 로 줌 기본값: axis=0
  • 합계 열 만들기

    sum함수에 범위 지정없으면 여러번 실행시 누적되어 합계가 들어가기 때문에 범위를 지정해주는 게 좋다
    score.loc[:,:'4반'] loc 이용해 행,열
  • 평균 컬럼 추가

타이타닉호 실습

타이타닉호 승객 사망자 중 카테고리별 비율 (미성년자,청년,중년,장년,노년 승객비율)

생존자 중 카테고리별 비율

단, 그룹별 비율의 전체 합은 1이 되어야함)

  • 생존자(Survived 컬럼) 의 전체 컬럼 개수 구하기
  • boolean 색인 새로운 변수에 담아줌
  • 생존자 수 shape으로 확인 (행,열)로 나옴
  • 총 수를 더해줌 sum이나 count 사용
  • 전체 수를 나눠줌 요소별

concat([a,b])

  • a, b 는 시리즈나 데이터프레임
    -concat은 먼저 쓰는 게 왼쪽(행)이 된다

범죄 현황 데이터 실습

  • 외부파일 가져옴

  • del 로 NaN이 나오는 컬럼을 삭제하거나 (del df3['컬럼명'] )

  • 총 결과인 df123에서 drop 함수 : df123.drop('광주지방경찰청')
    drop은 일종의 뷰, 변화없음
    ---> 새롭게 대입하거나, inplace = True 를 넣어야 값이 변하게됨!

  • 또는 슬라이싱 : df123.iloc[:-1]

조건 여러개인 bool 색인

or | 한개
and & 한개

groupby

  • 임의 데이터
  • 그룹별 데이터 확인 할 수 있음
  • 타이타닉 데이터에서
    클래스, 성별,생존 컬럼 가져와서, 클래스, 성별 그룹화 한 후 생존의 합을 보여주는 데이터

0개의 댓글