데이터분석 : 1. 데이터 생성 및 읽기
데이터분석 : 2. 인덱싱, 선택 및 할당
데이터분석 : 3. 요약 기능 및 맵
데이터분석 : 4. 그룹화 및 정렬
데이터분석 : 5. 데이터 유형 및 결측값
데이터분석 : 6. 이름 변경 및 결합
데이터는 우리에게 열 이름, 인덱스 이름 또는 기타 우리가 만족스럽지 않은 이름으로 전달된다. 이 경우, pandas 함수를 사용하여 문제가되는 항목의 이름을 변경하는 방법을 배워보자!
여러 DataFrame 또는 Series에서 데이터를 결합하는 방법을 배워보자!
import pandas as pd
pd.set_option('display.max_rows', 5)
reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
reviews.rename(columns={'points': 'score'})
reviews.rename(index={0: 'firstEntry', 1: 'secondEntry'})
renamed = reviews.rename(columns=dict(region_1='region', region_2='locale'))
reviews.rename_axis("wines", axis='rows').rename_axis("fields", axis='columns')
가장 간단한 결합 방법은 concat()이다.
요소들의 목록이 주어지면 이 함수는 축을 따라 해당 요소들을 함께 합치게 된다.
이는 서로 다른 DataFrame 또는 Series 객체에 데이터가 있지만 동일한 필드(열)를 가지고 있는 경우에 유용하다.
예를 들어, YouTube 동영상 데이터셋은 원산지(예: 캐나다 및 영국)별로 데이터를 분할합니다. 여러 개의 국가를 동시에 연구하려는 경우 concat()을 사용하여 데이터를 합칠 수 있습니다.
canadian_youtube = pd.read_csv("../input/youtube-new/CAvideos.csv")
british_youtube = pd.read_csv("../input/youtube-new/GBvideos.csv")
pd.concat([canadian_youtube, british_youtube])
left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])
left.join(right, lsuffix='_CAN', rsuffix='_UK')
powerlifting_meets = pd.read_csv("../input/powerlifting-database/meets.csv")
powerlifting_competitors = pd.read_csv("../input/powerlifting-database/openpowerlifting.csv")
powerlifting_combined = powerlifting_meets.set_index("MeetID").join(powerlifting_competitors.set_index("MeetID"))
set_index() 함수를 사용하여 각각의 DataFrame의 인덱스를 "MeetID" 열로 설정한다.
join() 함수를 사용하여 두 DataFrame을 "MeetID"를 기준으로 조인한다.(조인은 공통된 인덱스 값을 기준으로 DataFrame을 병합하는 작업)결과적으로, powerlifting_combined 변수에는 "MeetID"를 인덱스로 가지고, powerlifting_meets DataFrame과 powerlifting_competitors DataFrame이 조인된 결과가 저장된다.
이를 통해 각 대회(MeetID)에 대한 정보와 해당 대회에 참가한 경기자들의 정보를 하나의 DataFrame으로 결합하여 사용할 수 있다.