dataframe 생성

pd.DataFrame(’data’, ‘index’, ‘columns’)

#ex)
df = pd.DataFrame(data=randn, index='A B C'.split(), columns='W X Y'.split())
WXY
A123
B456
C789
#ex)
df['W', 'Y']
A  1  3
B  4  6
C  7  9

열 합치기

#ex)
df['NEW'] = df['X'] + df['Y']
WXYNEW
A1235
B45611
C78917

df.drop(’이름’,axis = 0 or 1, inplace=True)

  • axis: 0 → 행, axis: 1 → 열
  • inplace: 변경 내용을 저장할 것인지 여부
#ex)
df.drop('NEW', axis=1, inplace=True)



data filtering

WXY
A123
B456
C789

특정 조건에 해당하든 열 필터링

#ex)
df['W'] > 4

# A False
# B False
# C True
#ex)
df[df['W'] > 4]
WXY
C789
#ex)
df[df['W'] > 4]['Y']
Y
C9

교집합

#ex)
cond1 = df['W'] > 2
cond2 = df['Y'] > 8

df[(cond1) & (cond2)]
WXY
C789

index

#ex)
df.reset_index()
#df.set_index() 인덱스 이름 지정 가능
indexWXY
0A123
1B456
2C789



df 정보 보기

df.info()

  • data 타입, item 개수, 이름, 저장공간 등을 나타냄

df.dtypes()

  • data의 자료형을 나타냄

df.describe()

  • df에 대한 다수의 집계 메소드 반환
  • 개수, 평균, 분산, 사분위



결측치 다루기

ABC
01.05.01
12.0NaN2
2NaNNaN3

df.dropna(”axis”, ”thresh”)

  • 결측치를 포함한 행 제거
ABC
01.05.01
  • axis = 0 → 행 제거
  • axis = 1 → 열 제거
  • thresh → 제거하려고 하는 결측치의 최소 개수
  • ex) df.dropna(thresh=2)
ABC
01.05.01
12.0NaN2

df.fillna(value = ‘ ’)

  • 결측치를 value 값으로 채움
  • df.fillna(df.mean()) 과 같은 형식으로 이용
  • df['A'].fillna(value=df['A'].,mean())



기타 method

df.unique()

  • 고윳값 배열 출력

df.nunique()

  • 고윳값의 개수 출력

df.value_counts()

  • 각각의 고윳값과 발생 횟수 출력

0개의 댓글

Powered by GraphCDN, the GraphQL CDN