EDA 기초

화이팅·2023년 1월 11일

eda

목록 보기

1/29

df['E'].isin(['two','four']) # 특정 요소 있는 지 확인
df.sort_values(by='B',ascendig=False) # B열 기준 내림차순 정렬
df.rename(columns={df.columns[0] : 구별}) # 컬럼 이름 변경
데이터 합치기(merge)
pd.merge(left,right,how='left',on='a') # 'left' 데이터프레임 값 모두 나오게 a기준으로 합쳐라
how='outer'
np.arrange(a,b,s) : a부터 b까지 s간격
인덱스 변경
data_result.set_index('구별',inplace=True)
pandas pivot_table

pd.pivot_table(df, # 피벗할 데이터프레임
index=['manager','rep'],
values=['price'],
aggfunc=[np.mean,len], # 데이터 집계함수
fill_value=0, # nan 값 원하는 값으로 채우기
margins=True # 마지막에 합계 표시
)
pivot_table에서 다중 컬럼에서 특정 컬럼 제거
crime_station.columns=crime_station.columns.droplevel([0,1])
9. dataframe 인덱스 설정
df.set_index('구분') # 구분컬럼을 인덱스로 설정
10.seaborn
seaborn은 matplotlib와 함께 실행
지도시각화
foliumn.Choropleth(
geo_data,
data,
columns,
key_on,fill_color,fill_opacity,line_opactiy,legend_name).add_to(my_map)
BEAUTIFUL SOUP : 태그로 되어 있는 문서를 해석하는 기능을 가진 파이썬 모듈
from bs4 import BeautifulSoup

page=open('경로').read()
soup=BeautifulSoup(page,'html.parser') # beautifulsoup의 html을 읽는 엔진 중 하나 (lxml도 많이 사용)
print(soup.prettify()) # 들여쓰기된 상태로 출력

하하...하.