>⛹️♀️ 제로베이스 데이터취업스쿨 15기 스터디노트 19(5.30.)
🗂️ 오늘(5.30.) 수강한 분량
EDA CCTV 4~5
🗂️ EDA CCTV 4~5 핵심 내용 정리
- 데이터 시각화
- Pandas DataFrame은 데이터 변수에서 바로
plot()
명령 사용 가능
- 데이터(칼럼)이 많을 때는 정렬한 후 그리는 것이 효과적
def drawGraph(): data_result["소계"].sort_values().plot( kind = "barh" #그래프의 종류 grid=True #뒤에 구분선 title="가장 CCTV가 많은 구" figsize=(10,10) ): #세미콜론으로 끝내지 않으면 그래프 위에 다른 정보 한줄이 뜸!
- 데이터 경향 표시하기
- numpy 제공 함수 사용 1차 직선 만들기
np.ployfit()
: 직선을 구성하기 위한 계수 계산np.poly1d
: ployfit으로 찾은 계수, 파이썬에서 사용할 함수로 만들어 줌fl = np.polyld(fpl) #polyfit에서 찾은 계수 넣어서 함수 만들기 fx = np.linspace(100000,700000,100) #100000에서 700000까지 100개의 데이터 생성 #np.linspace(a,b,m) : a부터 b까지 n개의 등간격 데이터 만들기
- 강조 데이터 시각화
data_result["오차"]=data_result["소계"]-f1(data_result["인구수"])
- 경향과의 오차 만들기 : 경향은 f1 함수에 해당 인구 입력
- 현재값 : data_result["소계"]
- 사용자 색 정의
from matplotlib.colors import ListedColormap color_step = ["#17A589", "#F0F3F4"] my_cmp = ListedColormap(color_step)
- 상위/하위 5개만 표기하기
-plt.scatter(data_result['인구수'],data_result['소계'], c=data_result['오차'], s=50, cmap=my_cmap)
- s: 마커의 크기 / c: color 세팅에 방금 계산한 경향과의 오차 적용/ cmap: 사용자 정의한 맵을 적용for n in range(5): plt.text(df_sort_f['인구수'][n]*1.02, df_sort_f['소계'][n]*0.98, df_sort_f.index[n], fontsize=15)
plt.text(df_sort_f['인구수'][n]*1.02, df_sort_f['소계'][n]*0.98, df_sort_f.index[n], fontsize=15)
- text : 그래프에 글자를 그리는 명령
- 저장
data_result.to_csv(".../data/01.CCTV_result.csv",sep=",",endcoding="utf=8")
👩🚀 스터디 감정 노트
코테 2번의 행방은 어디인가...과연.....ㅋㅋㅋㅋㅋㅋㅋ
오늘도 즐거운 스터디시간:) 다들 너무 좋은분들이여서 다행이다!
EDA...설정 잘못된거같긴한데 일단 그냥 한다..괜찮다고 했으니 화이팅!
[이미지 출처 : 미리캔버스]