Panel Data = Pandas
numpy와 통합되어 스프레드 시트 처리 기능을 제공
데이터 처리 및 통계 분석을 위해 사용
타블로 형태의 데이터
기초는 과감히 생략
하나의 칼럼은 Series, 전체는 dataframe
df.loc[]
df.iloc[]
df.drop(column,axis=1)
del df['column']
df['column']
df[['column1','column2']]
df.reset_index(drop=True or False, Inplace = True or False)
df.drop(1)
df.values
df.add(series,axis=0)
df.columnname.replace({'male':0,'female':1})
Series 전체에 해당 함수를 적용
Series 데이터로 입력 받아 handling
applymap 은 모든 데이터에 다 적용
df.describe()
df.column.unique()
dict(enumerate(sorted(df['column'].unqiue())))
df.isnull()
추가적으로 sorting, corr, cov 등등 ..
외울 필요는 없고 필요할 때 마다 찾아보는 것을 추천
pd.options.display.max_rows = ???
다음 코드로 나오는 행 개수 설정할 수 있음
df.groupby(['기준칼럼1','기준칼럼2'])['적용칼럼'].sum()
h_index.unstack()
h_index.reset_index()
요렇게 matrix로 풀어줌
grouped = df.groupby("기준칼럼")
grouped.get_group('그룹네임')
groupeded.agg([np.sum,np.mean])
score = lambda x: (x-x.mean()) / x.std()
grouped.transform(score)
df.groupby('team').filter(lambda x: len(x)>=3)
grouped.add_prefix('앞에 붙었으면 하는 글자')
df.pivot_table(['값'], index=, columns= , aggfunc = 적용 함수 , fill_value = nan에 넣고 싶은 것
pd.crosstab(index = 인덱스, columns = 칼럼, values= 값, aggfunc= 함수)
pd.merge(df_a,df_b, on='기준')
pd.merge(df_a,df_b, left_on='왼쪽 df 기준', right_on = '오른쪽 df 기준')
pd.merge(df_a,df_b, right_index=True, left_index= True
pd.concat([df_a,df_b],axis=0 or 1)