[제로베이스 데이터취업스쿨 15기] Part. 4 EDA 스터디노트 -19(5.30.)

DaHye CHOI·2023년 5월 30일
0

>⛹️‍♀️ 제로베이스 데이터취업스쿨 15기 스터디노트 19(5.30.)

🗂️ 오늘(5.30.) 수강한 분량

EDA CCTV 4~5

🗂️ EDA CCTV 4~5 핵심 내용 정리

  • 데이터 시각화
  • Pandas DataFrame은 데이터 변수에서 바로 plot()명령 사용 가능
    • 데이터(칼럼)이 많을 때는 정렬한 후 그리는 것이 효과적
  • def drawGraph():
    	data_result["소계"].sort_values().plot(
        	kind = "barh" #그래프의 종류
            grid=True #뒤에 구분선
            title="가장 CCTV가 많은 구"
            figsize=(10,10)
            ): #세미콜론으로 끝내지 않으면 그래프 위에 다른 정보 한줄이 뜸!
  • 데이터 경향 표시하기
  • numpy 제공 함수 사용 1차 직선 만들기
    • np.ployfit(): 직선을 구성하기 위한 계수 계산
    • np.poly1d : ployfit으로 찾은 계수, 파이썬에서 사용할 함수로 만들어 줌
      fl = np.polyld(fpl) #polyfit에서 찾은 계수 넣어서 함수 만들기
      fx = np.linspace(100000,700000,100) #100000에서 700000까지 100개의 데이터 생성
      #np.linspace(a,b,m) : a부터 b까지 n개의 등간격 데이터 만들기
  • 강조 데이터 시각화
  • data_result["오차"]=data_result["소계"]-f1(data_result["인구수"])
    • 경향과의 오차 만들기 : 경향은 f1 함수에 해당 인구 입력
    • 현재값 : data_result["소계"]
  • 사용자 색 정의
    from matplotlib.colors import ListedColormap
    color_step = ["#17A589", "#F0F3F4"]
    my_cmp = ListedColormap(color_step)
  • 상위/하위 5개만 표기하기
    - plt.scatter(data_result['인구수'],data_result['소계'], c=data_result['오차'], s=50, cmap=my_cmap)
    - s: 마커의 크기 / c: color 세팅에 방금 계산한 경향과의 오차 적용/ cmap: 사용자 정의한 맵을 적용
    for n in range(5):
    	plt.text(df_sort_f['인구수'][n]*1.02, 
       df_sort_f['소계'][n]*0.98, df_sort_f.index[n], fontsize=15)
  • plt.text(df_sort_f['인구수'][n]*1.02, df_sort_f['소계'][n]*0.98, df_sort_f.index[n], fontsize=15)
    • text : 그래프에 글자를 그리는 명령
  • 저장
    data_result.to_csv(".../data/01.CCTV_result.csv",sep=",",endcoding="utf=8")

👩‍🚀 스터디 감정 노트

코테 2번의 행방은 어디인가...과연.....ㅋㅋㅋㅋㅋㅋㅋ
오늘도 즐거운 스터디시간:) 다들 너무 좋은분들이여서 다행이다!
EDA...설정 잘못된거같긴한데 일단 그냥 한다..괜찮다고 했으니 화이팅!

[이미지 출처 : 미리캔버스]

profile
데이터가 궁금한 비전공자의 데이터스터디🫠

0개의 댓글