EDA 기초

화이팅·2023년 1월 11일
0

eda

목록 보기
1/29
  1. df['E'].isin(['two','four']) # 특정 요소 있는 지 확인

  2. df.sort_values(by='B',ascendig=False) # B열 기준 내림차순 정렬

  3. df.rename(columns={df.columns[0] : 구별}) # 컬럼 이름 변경

  4. 데이터 합치기(merge)
    pd.merge(left,right,how='left',on='a') # 'left' 데이터프레임 값 모두 나오게 a기준으로 합쳐라
    how='outer'

  5. np.arrange(a,b,s) : a부터 b까지 s간격

  6. 인덱스 변경
    data_result.set_index('구별',inplace=True)

  7. pandas pivot_table

    pd.pivot_table(df, # 피벗할 데이터프레임
    index=['manager','rep'],
    values=['price'],
    aggfunc=[np.mean,len], # 데이터 집계함수
    fill_value=0, # nan 값 원하는 값으로 채우기
    margins=True # 마지막에 합계 표시
    )

  8. pivot_table에서 다중 컬럼에서 특정 컬럼 제거
    crime_station.columns=crime_station.columns.droplevel([0,1])
    9. dataframe 인덱스 설정
    df.set_index('구분') # 구분컬럼을 인덱스로 설정

    10.seaborn
    seaborn은 matplotlib와 함께 실행

  9. 지도시각화
    foliumn.Choropleth(
    geo_data,
    data,
    columns,
    key_on,fill_color,fill_opacity,line_opactiy,legend_name).add_to(my_map)

  10. BEAUTIFUL SOUP : 태그로 되어 있는 문서를 해석하는 기능을 가진 파이썬 모듈
    from bs4 import BeautifulSoup

page=open('경로').read()
soup=BeautifulSoup(page,'html.parser') # beautifulsoup의 html을 읽는 엔진 중 하나 (lxml도 많이 사용)
print(soup.prettify()) # 들여쓰기된 상태로 출력

profile
하하...하.

0개의 댓글