데이터 분석 기초 03

냄비짱·2022년 6월 2일

EDA jupyter notebook pandas vscode 데이터분석 데이터사이언티스트 제로베이스 초보자

데이터 분석 기초

목록 보기

3/8

데이터 합치기

pandas에서 데이터 프레임을 병합하는 방법
pd.concat()
pd.merge()
pd.join()
딕셔너리 안의 리스트 형태 -> key 값에 해당하는 열의 value가 리스트로 기입

left = pd.DataFrame({
"key" : ["k0", "k4", "k2", "k3"],
"A" : ["A0", "A1", "A2", "A3"],
"B" : ["B0", "B1", "B2", "B3"]
})
left

리스트 안의 딕셔너리 형태 -> key 값에 해당하는 value가 열 순서대로 하나씩 기입

right = pd.DataFrame([
{"key":"k0", "C" : "C0", "D" : "D0"},
{"key":"k1", "C" : "C1", "D" : "D1"},
{"key":"k2", "C" : "C2", "D" : "D2"},
{"key":"k3", "C" : "C3", "D" : "D3"},
])
right

pd.merge()

두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법
기준이 되는 컬럼이나 인덱스를 키값이라고 함
기준이 되는 키값은 두 데이터 프레임에 모두 포함되어 있어야함.

pd.merge(left, right, on="key")

두 데이터 프레임의 공통된 값(key값)을 기준으로 공통된 것만 병합

pd.merge(left, right, how="left", on="key")

두 데이터의 프레임을 공통된 key값 기준으로 합치되 left의 내용은 모두 출력

pd.merge(left, right, how="outer", on="key")

두 데이터 프레임을공통된 key값 기준으로 합치되 left와 right의 내용은 모두 출력

*inner는 교집합으로 default 값

인덱스 변경
set_index()
선택한 컬럼을 데이터 프레임의 인덱스로 지정

data_result.set_index("구별", inplace=True)
data_result.head()

상관계수

corr()
correlation의 약자
상관계수가 0.2 이상인 데이터를 비교

모든 데이터 타입이 연산가능해야 사용가능

냄비짱

개발도상인 냄비짱

이전 포스트

데이터 분석 기초 02

다음 포스트

데이터 분석 기초 03

데이터 분석 기초

데이터 합치기

pd.merge()

pd.merge(left, right, on="key")

pd.merge(left, right, how="left", on="key")

pd.merge(left, right, how="outer", on="key")

인덱스 변경

상관계수

데이터 분석 기초 02

데이터 분석 기초 04

0개의 댓글