취준을 하다보면 가끔 closed book으로 데이터 분석 테스트를 요구하는 회사들이 있다.
그런 테스트를 대비하기 위한 주요 패키지들의 빈출 함수 및 메서드에 대한 치팅시트를 만들어 보았다.
물론 직접 만들지는 않았고, ChatGPT-o1이 만들어줬으니 사용하실 분들은 얼마든지 사용하시길!
Pandas 치트 시트: 데이터 분석 테스트를 위한 필수 기능
import pandas as pd
# CSV 파일 로드
df = pd.read_csv('파일명.csv')
# Excel 파일 로드
df = pd.read_excel('파일명.xlsx')
# JSON 파일 로드
df = pd.read_json('파일명.json')
# 데이터 상위 5개 행 보기
df.head()
# 데이터 하위 5개 행 보기
df.tail()
# 데이터 정보 확인
df.info()
# 기술 통계 확인
df.describe()
# 컬럼명 확인
df.columns
# 데이터 크기 확인 (행, 열)
df.shape
# 결측치 확인
df.isnull().sum()
# 고유값 개수 확인
df['컬럼명'].nunique()
# 값의 빈도수 확인
df['컬럼명'].value_counts()
# 상관관계 확인
df.corr()
# 결측치 제거
df = df.dropna()
# 결측치 대체
df = df.fillna(값)
# 특정 컬럼의 결측치 대체
df['컬럼명'] = df['컬럼명'].fillna(값)
# 데이터 타입 확인
df.dtypes
# 데이터 타입 변환
df['컬럼명'] = df['컬럼명'].astype('타입')
# 원-핫 인코딩
df = pd.get_dummies(df, columns=['컬럼명'])
# 라벨 인코딩
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['컬럼명'] = le.fit_transform(df['컬럼명'])
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df['컬럼명'] = scaler.fit_transform(df[['컬럼명']])
# 컬럼명 변경
df = df.rename(columns={'기존컬럼명': '새컬럼명'})
# 컬럼 삭제
df = df.drop('컬럼명', axis=1)
# 행 삭제
df = df.drop(인덱스번호, axis=0)
# 값 정렬
df = df.sort_values(by='컬럼명')
# 그룹화 및 집계
df_grouped = df.groupby('컬럼명').mean()
# 데이터 병합
df_merged = pd.merge(df1, df2, on='키컬럼')
# 데이터 연결
df_concat = pd.concat([df1, df2])
# 컬럼 선택
df['컬럼명']
df[['컬럼1', '컬럼2']]
# 행 선택 (라벨 기반)
df.loc[행인덱스]
# 행 선택 (정수 위치 기반)
df.iloc[행번호]
# 조건부 필터링
df[df['컬럼명'] > 값]
df[(df['컬럼1'] > 값1) & (df['컬럼2'] < 값2)]
# CSV로 저장
df.to_csv('파일명.csv', index=False)
# Excel로 저장
df.to_excel('파일명.xlsx', index=False)
# JSON으로 저장
df.to_json('파일명.json')
이 치트 시트는 데이터 분석 테스트에서 자주 사용되는 Pandas의 핵심 기능들을 요약한 것입니다. 각 단계에서 이 코드를 참고하여 효율적으로 문제를 해결하세요. 행운을 빕니다! 🚀