데이터분석 테스트를 위한 Pandas 치팅시트

TrainToGPB·2024년 10월 5일

Cheat Sheet

목록 보기

1/4

취준을 하다보면 가끔 closed book으로 데이터 분석 테스트를 요구하는 회사들이 있다.
그런 테스트를 대비하기 위한 주요 패키지들의 빈출 함수 및 메서드에 대한 치팅시트를 만들어 보았다.
물론 직접 만들지는 않았고, ChatGPT-o1이 만들어줬으니 사용하실 분들은 얼마든지 사용하시길!

Pandas 치트 시트: 데이터 분석 테스트를 위한 필수 기능

📥 데이터 로딩

import pandas as pd

# CSV 파일 로드
df = pd.read_csv('파일명.csv')

# Excel 파일 로드
df = pd.read_excel('파일명.xlsx')

# JSON 파일 로드
df = pd.read_json('파일명.json')

🔍 데이터 탐색

# 데이터 상위 5개 행 보기
df.head()

# 데이터 하위 5개 행 보기
df.tail()

# 데이터 정보 확인
df.info()

# 기술 통계 확인
df.describe()

# 컬럼명 확인
df.columns

# 데이터 크기 확인 (행, 열)
df.shape

# 결측치 확인
df.isnull().sum()

# 고유값 개수 확인
df['컬럼명'].nunique()

# 값의 빈도수 확인
df['컬럼명'].value_counts()

# 상관관계 확인
df.corr()

🛠 데이터 전처리

결측치 처리

# 결측치 제거
df = df.dropna()

# 결측치 대체
df = df.fillna(값)

# 특정 컬럼의 결측치 대체
df['컬럼명'] = df['컬럼명'].fillna(값)

데이터 타입 변환

# 데이터 타입 확인
df.dtypes

# 데이터 타입 변환
df['컬럼명'] = df['컬럼명'].astype('타입')

카테고리형 변수 인코딩

# 원-핫 인코딩
df = pd.get_dummies(df, columns=['컬럼명'])

# 라벨 인코딩
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['컬럼명'] = le.fit_transform(df['컬럼명'])

스케일링

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df['컬럼명'] = scaler.fit_transform(df[['컬럼명']])

🔄 데이터 조작

# 컬럼명 변경
df = df.rename(columns={'기존컬럼명': '새컬럼명'})

# 컬럼 삭제
df = df.drop('컬럼명', axis=1)

# 행 삭제
df = df.drop(인덱스번호, axis=0)

# 값 정렬
df = df.sort_values(by='컬럼명')

# 그룹화 및 집계
df_grouped = df.groupby('컬럼명').mean()

# 데이터 병합
df_merged = pd.merge(df1, df2, on='키컬럼')

# 데이터 연결
df_concat = pd.concat([df1, df2])

🎯 데이터 선택 및 필터링

# 컬럼 선택
df['컬럼명']
df[['컬럼1', '컬럼2']]

# 행 선택 (라벨 기반)
df.loc[행인덱스]

# 행 선택 (정수 위치 기반)
df.iloc[행번호]

# 조건부 필터링
df[df['컬럼명'] > 값]
df[(df['컬럼1'] > 값1) & (df['컬럼2'] < 값2)]

💾 데이터 저장

# CSV로 저장
df.to_csv('파일명.csv', index=False)

# Excel로 저장
df.to_excel('파일명.xlsx', index=False)

# JSON으로 저장
df.to_json('파일명.json')

이 치트 시트는 데이터 분석 테스트에서 자주 사용되는 Pandas의 핵심 기능들을 요약한 것입니다. 각 단계에서 이 코드를 참고하여 효율적으로 문제를 해결하세요. 행운을 빕니다! 🚀

TrainToGPB

J의 틀에 몸을 녹여 맞추는 P

다음 포스트