25_EDA(3)

ryu·2023년 6월 1일
0

데이터 병합하기

merge를 이용한 데이터 병합

  • pd.merge(left, right, how="left", on="key")
    • on은 무엇을 기준으로 병합시킬 것인지 지정
    • how는 어디에 병합시킬 것인지 지정. left로 정해졌으면 leftkey는 전부 보존됨
    • rightleftkey에 대응되는 데이터가 없으면 Nan
    • how="outer", how="inner" 등등도 있음. inner가 기본값

병합 후 정리하기

  • data_result.set_index("구별", inplace=True)
    • "구별"을 index로 지정한다는 것
    • 데이터를 정리하는 과정에서 index를 재지정하는 경우가 있음
    • unique한 데이터를 index로 잡자

상관관계

  • 두 변량 사이에 한쪽이 증가하면 다른 쪽도 증가/감소 하는 경향이 있을 때 두 변량 사이에 상관관계가 있다고 함
  • 주의할 것은 상관관계가 있다는 것이 인과관계임을 의미하지는 않음
  • 0.2이하이면 상관관계가 없거나 무시해도 좋은 수준, 0.4이하이면 약한 상관관계, 0.6 이상이면 강한상관관계에 있다고 판단
  • data_result.corr()
  • 따라서 무조건 CCTV 비율이 높은 곳을 찾는게 아니라 구별 인구대비 현황을 분석하여 "상대적으로" CCTV가 적거나 많은 구를 찾는 것이 의미를 가짐

matplotlib 기초

  • 파이썬의 대표적인 시각화 도구
  • 일반적으로 plt라고 naming함
  • Jupyter notebook을 사용할 때 결과가 out session에 나타나는 것이 유리하므로 %matplotlib inline 옵션을 사용

matpllotlib.pyplot

  • 2D 그래프를 담당

    import matplotlib.pyplot as plt
    # %matplotlib inline
    get_ipython().run_line_magic("matplotlib", "inline")

삼각함수 그리기

  • numpysin함수
    • np.arrage(a, b, s)
    • np.sin(value)

0개의 댓글