dataframe 생성
pd.DataFrame(’data’, ‘index’, ‘columns’)
df = pd.DataFrame(data=randn, index='A B C'.split(), columns='W X Y'.split())
df['W', 'Y']
A 1 3
B 4 6
C 7 9
열 합치기
df['NEW'] = df['X'] + df['Y']
df.drop(’이름’,axis = 0 or 1, inplace=True)
- axis: 0 → 행, axis: 1 → 열
- inplace: 변경 내용을 저장할 것인지 여부
df.drop('NEW', axis=1, inplace=True)
data filtering
특정 조건에 해당하든 열 필터링
df['W'] > 4
df[df['W'] > 4]
df[df['W'] > 4]['Y']
교집합
cond1 = df['W'] > 2
cond2 = df['Y'] > 8
df[(cond1) & (cond2)]
index
df.reset_index()
df 정보 보기
df.info()
- data 타입, item 개수, 이름, 저장공간 등을 나타냄
df.dtypes()
df.describe()
- df에 대한 다수의 집계 메소드 반환
- 개수, 평균, 분산, 사분위
결측치 다루기
| A | B | C |
---|
0 | 1.0 | 5.0 | 1 |
1 | 2.0 | NaN | 2 |
2 | NaN | NaN | 3 |
df.dropna(”axis”, ”thresh”)
- axis = 0 → 행 제거
- axis = 1 → 열 제거
- thresh → 제거하려고 하는 결측치의 최소 개수
- ex) df.dropna(thresh=2)
df.fillna(value = ‘ ’)
- 결측치를 value 값으로 채움
- df.fillna(df.mean()) 과 같은 형식으로 이용
- df['A'].fillna(value=df['A'].,mean())
기타 method
df.unique()
df.nunique()
df.value_counts()