📚 [Python] 데이터 전처리

전주은·2023년 2월 22일

Pandas

데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 데이터 구조를 제공하는 모듈

기본기능

설치 및 import

!pip install Pandas
import pandas as pd

Series와 DateFrame

1차원, 1개의 column 은 Series라고 부름
데이터 프레임: 가로축, 세로축이 있는 2차원의 다양한 타입 데이터를 저장하는 자료구조

# 리스트를 시리즈로
pd.Series([1, 2, 3, 4]) 
# 2차원 리스트 시리즈 가능!
product1 = [['삼성',900000, '갤럭시'],['애플',1400000, '아이폰14'],['엘지',1500000,'엘지그램']] 
# 시리즈를 dataframe으로 
pd.DataFrame(product1)

데이터 가져오기

# 코랩에 넣은 데이터
pd.read_csv('korean-idol.csv')
# 외부 데이터
pd.read_csv('https://bit.ly/ds-house-price')
# 구글 드라이브에 있는 데이터
from google.colab import drive 
drive.mount('/content/drive')
pd.read_csv('파일경로')
# 엑셀파일 가져오기
pd.read_excel('파일경로')

가져올때 문제가 생긴다면?

데이터 정보 확인하기

# 기본덕인 행의 정보와 데이터 타입을 확인
df.info()
# 컬럼(열) 확인
df.columns
# 컬럼이름 변경
df.columns = 리스트
# 통계정보 확인 - 개수, 평균, 표준편차, 최소, 사분위값, 최대
df.describe()
# 오브젝트 포함시 - 개수, unique한 값 개수, 빈도수 높은것, 그 개수
df.describe(include=object)
# 원하는 개수의 데이터 보기
df.head() # 상위 nav 5개의 row 출력
df.head(n) # 상위 nav m개의데이터 출력
df.tail(n) # 하위 nav m개의데이터 출력

df['키'].sum()
df['키'].count()
df['키'].mean()
df['키'].max()
df['키'].var()
df['키'].std()

정렬하기

# 인덱스로 내림차순 정렬
df.sort_index(ascending=False)
# 특정 컬럼 오름차순 정렬
df.sort_values(by='컬럼명')
# 특정 컬럼 내림차순 정렬
df.sort_values(by='컬럼명',ascending=False)
# NaN을 가장 위로
df.sort_values(by='컬럼명', na_position='first')
# 두번 정렬
df.sort_values(by=['컬럼명1', '컬럼명2'], ascending=[False,True],  na_position='first')

컬럼으로 데이터 다루기

컬럼으로 행 범위 선택하기

df.loc[:,컬럼리스트]
df.loc[3:8,['name','height']]
# 인덱스 포함
df.iloc[1:4,0:2]

Boolean indexing

df['height']>=180 # 결과가 True False로 나옴
df[df['height']>=180] # True인 것만 출력
df[df['height']>=180][['name','gender','height']] # 그중에 원하는 컬럼만 출력 가능

isin 활용하기

isin은 조건을 걸고자 하는 값이 정의한 list에 있을 때만 색인하려는 경우에 사용

company = ['플레더스','SM'] # 여기에 포함되면 True
df['company'].isin(company) # True False로 나옴
df[df['company'].isin(company)] # True인 것만 출력
df.loc[df['company '].isin(company),['name','company ']] # 그 중에 원하는 컬러만 출력 가능

결측값과 Null값 처리하기

NaN은 비어있는 값 또는 결측값이라고 부름
pandas에서는 null을 NaN(Not a Number)으로 표기됨

df.isna() # Nan 여부 True False DataFrame으로 출력
df.isnull() # Null 여부
df[df['group'].isnull()] # True인 것만 출력
df[df['group'].isnull()]['name']
df['name'][df['group'].isnull()] # 순서 바꿔도 상관없음
df['name'][df['group'].notnull()] # notnull도 있음

결측값 처리하기

# fillna(): 결측값을 채워주는 함수
df['키'].fillna(-1) # 미리보기
df2['키'].fillna(-1, inplace=True ) # 바꾸는 것까지
height = df2['키'].mean()
df2['키'] = df2['키'].fillna(height)

# 결측값이 있는 행을 제거
df.dropna() # 기본값은 행을 제거 #df.dropna(axis=0)

#결측값이 있는 행을 제거
df.dropna(axis=1) #기본값은 행을 제거, 결측값이 한개라도 있을 경우 삭제 df.dropna(axis=0,how='any')
# 행의 데이터가 모두 Nan인 경우만 삭제
df.dropna(axis=0,how='all')

데이터 복사하기

copy_df = df.copy()

row, column 추가 및 삭제하기

row 추가하기

dict 형태의 데이터를 만들어주고 append()함수를 사용하여 데이터를 추가
반드시 ignore_index=True 옵션을 추가해야 에러가 나지 않음

df =df.append({'이름':'김사과', '그룹':'애플', '소속사':'apple', '성별':'여자', '생년월일':'2000-01-01','키':160, '혈액형':'A', '브랜드평판지수6':1234567},ignore_index=True)

column 추가하기

df['국적'] ='대한민극'

row 제거하기

df.drop(14, axis=0)
df.drop([1,10,14], axis=0)

column 제거하기

df.drop('그룹',axis=1)

그룹으로 묶기

groupby 는 데이터를 그룹으로 묶어 분석할 때 사용

df.groupby('소속사') 
df.groupby('소속사').count() # 소속사별로 개수를 세서 DataFrame으로 출력
df.groupby('소속사').mean()
df.groupby('소속사').sum()

중복값 제거하기

# drop_duplicates(): 중복된 데이터를 제거(keep='first')
df['혈액형'].drop_duplicates()
df['혈액형'].drop_duplicates(keep='last') # 마지막 index로 남겨둔다!

데이터프레임 병합하기

concat(): 데이터를 합침. sort=Falsse 옵션으로 순서가 유지되도록 함

컬럼이 같아 경우 위아래로 합칠때

pd.concat([df1, df_copy],sort=False)
# reset_index(): index를 새롭게 적용, drop=True 기존 index를 삭제
df_concat.reset_index(drop=True)

새로운 컬럼으로 좌우로 합칠 때

pd.concat([df1,df2], axis=1)
# index기준으로 합쳐진다! -> 해당인덱스가 없을 때 NaN으로 변환되 합쳐짐

merge(): 특정 고유한 키 값을 기준으로 병합 (sql join과 같음)

merge(데이터 프레임1, 데이터 프레임2, on='unique id', how='병합의 기준')
병합의 기준: left, right, inner, outer

pd.merge(df1, df_right, on='이름', how='left') #df1을 기준으로 데이터 병합
pd.merge(df1, df_right, on='이름', how='inner') # 데이터를 둘다 갖고있을때로 !!     pd.merge(df1, df_right, on='이름', how='right')
pd.merge(df1, df_right, on='이름', how='outer')

Series의 타입 변환하기

astype(): 데이터의 타입을 변환

df['키'].astype(int)

날짜 변환하기

to_datetime(): object 타입에서 datetime타입으로 변환

df['생년월일'] = pd.to_datetime(df['생년월일'])

달, 일, 시간, 주, 요일

df['생년월일'].dt.month
df['생년월일'].dt.day
df['생년월일'].dt.hour
df['생년월일'].dt.week
df['생년원일'].dt.dayofweek #요일: 0(월)
df['생년월일'].dt.date         # YYYY-MM-DD(문자)
df['생년월일'].dt.isocalendar().week # 1년의 몇번째 주차인지

# 파생변수 만들자!!
df['출생년도'] = df['생년원일'].dt.year
df['출생년도'] = df['생년원일'].dt.month
df['출생년도'] = df['생년원일'].dt.day

apply

Series나 DateFrame에 좀 더 구체적인 로직을 적용하고 싶은 경우에 사용
apply 적용하기 위해서는 별도의 함수가 먼저 정의되야 함
함수를 매개변수로 넘겨줌

df.loc[df['성별']=='남자', '성별'] = 1
df.loc[df['성별']=='여자', '성별'] = 0

# 이것을 함수로 만들어 apply 적용가능
def male_or_female(x):
  if x == '남자':
    return 1
  elif x == '여자':
    return 0
df['성별'].apply(male_or_female)

# 파이썬은 함수를 정의하면 메모리에 계속 남아있기때문에 일회용은 람다식을 써준다!
df['성별'].apply(lambda x:1 if x=='남자' else 0)

map

map_gender = {'남자':1,'여자':0} # 딕셔너리를 통해 적용 => map
df['성별'].map(map_gender) # 미리보기
df['NEW성별']= df['성별'].map(map_gender) #적용

데이터 프레임의 산술연산

df= pd.DataFrame({
    '파이썬':[60, 70, 80, 85, 75],
    '자료구조':[40, 50, 45, 70, 55],
    '데이터분석':[80, 75, 100, 90, 95]
})
df['파이썬'] + df['자료구조'] + df['데이터분석']
df['파이썬'] - df['자료구조']
df['파이썬'] * df['자료구조']
df['파이썬'] / df['자료구조']
df['총점'] = df['파이썬'] + df['자료구조'] + df['데이터분석']
df['평균'] = df['총점'] /3
# 행의 개수가 다를 경우 빠진 데이터를 Nan으로 취급
# 숫자끼리만 연산가능!

원 핫 인코딩(One-Hot-Encoding) ✨✨✨✨

더미 변수
원 핫 인코딩은 한개의 요소는 True, 나머지 요소는 Falses로 만들어 카테고리형으로 표현하는 기술
df['혈액형_code']를 머신러닝 알고리즘에 넣어 데이터를 예측하려고 지시를 하면 컴퓨터는 값들간의 관꼐를 스스로 형성하게 됨
만약 B형은 1, AB형은 2라는 값을 가지고 있을 때, 컴퓨터는 'B형' +'AB형' = 'O형' 라고 이상한 관계를 맺을 수 있게 됨
별도의 column을 형성해주고 1개의 column에는 True, 나머지는 False라고 넣어줌으로 'A,B,AB,O'형의 관계는 독립적이다라는 카테고리로 표현해주는 방식 -> 원핫 인코딩

blood_map = {'A':0, 'B':1,'AB':2,'O':3}
df['혈액형_code'] = df['혈액형'].map(blood_map)
df['혈액형_code'].value_counts()
pd.get_dummies(df['혈액형_code'])

데이터 전처리 예시

df = pd.read_csv('https://bit.ly/ds-house-price')
df.info()
# 분양가격의 dtype을 int64로 변경하기
df['분양가격'].astype(int) # ValueError: invalid literal for int() with base 10: '  ' 
# '  '공백이 존재하는 데이터가 있는지 확인
df.loc[df['분양가격']=='  ']
# stript()를 사용해서 공백이 있는 데이터의 해당 앞뒤 공백을 삭제
df['분양가격']= df['분양가격'].str.strip()
#int로 바꾸기 다시시도
df['분양가격'].astype(int) # ValueError: invalid literal for int() with base 10: ''
df.loc[df['분양가격']=='']
# 데이터가 없는 경우를 0으로 변경
df.loc[df['분양가격']=='','분양가격'] = 0
df['분양가격'].astype(int) # ValueError: cannot convert float NaN to integer
# NaN을 0으로 반환
df['분양가격']=df['분양가격'].fillna(0)
df['분양가격'].astype(int) # ValueError: invalid literal for int() with base 10: '6,657' : 1000원단위
# 콤마를 제거
df['분양가격'] = df['분양가격'].str.replace(',','')
df['분양가격'].astype(int) # ValueError: cannot convert float NaN to integer
df['분양가격']=df['분양가격'].fillna(0)
df['분양가격'].astype(int)  # ValueError: invalid literal for int() with base 10: '-'
# - 를 제거
df['분양가격'] = df['분양가격'].str.replace('-','')
df['분양가격'].astype(int)  # ValueError: cannot convert float NaN to integer
df['분양가격']=df['분양가격'].fillna(0)
df['분양가격'].astype(int)
# 데이터가 없는 경우를 0으로 변경
df.loc[df['분양가격']=='','분양가격'] = 0
df['분양가격'].astype(int)
df.info()
df['분양가격'] = df['분양가격'].astype(int) # 값을 저장해야 바뀐다!
# 규모부분 column에 불필요한 '전용면적' 글자를 삭제
df['규모구분'] = df['규모구분'].str.replace('전용면적','')
df['규모구분'].value_counts()
# 지역명별로 평균 분양가격을 확인
df.groupby('지역명')['분양가격'].mean()
# 작업파일 저장
df.to_csv('ds-house-price-clean.csv', index=False)

전주은

이전 포스트

알고리즘 모음

다음 포스트

📚 [Python] 데이터 전처리

Pandas

기본기능

설치 및 import

Series와 DateFrame

데이터 가져오기

데이터 정보 확인하기

정렬하기

컬럼으로 데이터 다루기

컬럼으로 행 범위 선택하기

Boolean indexing

isin 활용하기

결측값과 Null값 처리하기

결측값 처리하기

데이터 복사하기

row, column 추가 및 삭제하기

row 추가하기

column 추가하기

row 제거하기

column 제거하기

그룹으로 묶기

중복값 제거하기

데이터프레임 병합하기

concat(): 데이터를 합침. sort=Falsse 옵션으로 순서가 유지되도록 함

merge(): 특정 고유한 키 값을 기준으로 병합 (sql join과 같음)

Series의 타입 변환하기

astype(): 데이터의 타입을 변환

날짜 변환하기

to_datetime(): object 타입에서 datetime타입으로 변환

달, 일, 시간, 주, 요일

apply

map

데이터 프레임의 산술연산

원 핫 인코딩(One-Hot-Encoding) ✨✨✨✨

데이터 전처리 예시

알고리즘 모음

[Python] 그래프 그리기

0개의 댓글