22.04.27 PandasModule 실습 - concat, 정렬, 데이터 정렬

최고고·2022년 4월 27일

0

csv 파일 불러오기

데이터개수세기 - 결측치를 알 수 있다.

열값을 인덱싱해오면 Series클래스(1차원형태)가 된다

정렬

sort_values()
기본값이 오름차순, 결측치(오름,내림 무관하게) 는 맨 아래로 가게됨
ascending=False로 하면 내림차순 정렬이 됨

특정 컬럼 기준 : by = ''

기준이 여러개일 때, 리스트형태로 [] 대괄호로 묶어줌

결측치 채우기

NaN값을 0으로 채워줌 -> 원본데이터가 바뀌진 않음
inplace = True 일 때 원본에도 적용할 수 있다.

중복데이터

.value_counts()

csv 파일 불러오기

컬럼별 개수 불러오기
.head() #앞에서 5개(기본값), 개수 지정할 수 있음
.tail() #끝에서 5개
그룹별 중복제거

.value_counts()

카테고리 생성

범위 해당이 안되는 데이터는 NaN으로 나옴
범위를 아래처럼 바꿔주자

type- 타입확인, categories-인덱스확인할 수 있음

DataFrame으로 만들어줌

train 데이터에 나이별 카테고리 만들기

위의 구간, 라벨을 가져와서 적용하기
DataFrame에 담아줌

각 라벨별 개수 구해줌
train에 새로운 컬럼 추가해줌
컬럼 추가된 모습

Age로 개수 구했을 때 보기어려운 자료가 카테고리화 해서 보기 쉬워짐

새로운 csv 파일 불러옴

인덱스 컬럼, 인코딩 해주기
합계구하는 함수 .sum()
기본값 : 컬럼별 합계
순위보는 함수로 학급별 순위 볼 수 있음
반대로 행 별 합계를 보고싶을 때 sum() 안에 axis = 1 로 줌 기본값: axis=0
합계 열 만들기

sum함수에 범위 지정없으면 여러번 실행시 누적되어 합계가 들어가기 때문에 범위를 지정해주는 게 좋다
score.loc[:,:'4반'] loc 이용해 행,열
평균 컬럼 추가

타이타닉호 실습

타이타닉호 승객 사망자 중 카테고리별 비율 (미성년자,청년,중년,장년,노년 승객비율)

생존자 중 카테고리별 비율

단, 그룹별 비율의 전체 합은 1이 되어야함)

생존자(Survived 컬럼) 의 전체 컬럼 개수 구하기
boolean 색인 새로운 변수에 담아줌
생존자 수 shape으로 확인 (행,열)로 나옴
총 수를 더해줌 sum이나 count 사용
전체 수를 나눠줌 요소별

concat([a,b])

a, b 는 시리즈나 데이터프레임
-concat은 먼저 쓰는 게 왼쪽(행)이 된다

범죄 현황 데이터 실습

외부파일 가져옴
del 로 NaN이 나오는 컬럼을 삭제하거나 (del df3['컬럼명'] )
총 결과인 df123에서 drop 함수 : df123.drop('광주지방경찰청')
drop은 일종의 뷰, 변화없음
---> 새롭게 대입하거나, inplace = True 를 넣어야 값이 변하게됨!
또는 슬라이싱 : df123.iloc[:-1]

조건 여러개인 bool 색인

or | 한개
and & 한개

groupby

임의 데이터
그룹별 데이터 확인 할 수 있음

타이타닉 데이터에서
클래스, 성별,생존 컬럼 가져와서, 클래스, 성별 그룹화 한 후 생존의 합을 보여주는 데이터

이전 포스트

22.04.25 Pandas Module

다음 포스트

android OnClick 이벤트 적용하기

0개의 댓글