>⛹️♀️ 제로베이스 데이터취업스쿨 15기 스터디노트 18(5.25./5.26/5.29.)
🗂️ 오늘(5.29.)까지 수강한 분량
파이썬테스트(5.25.)/ EDA CCTV 1~3
🗂️ EDA CCTV 1~3 핵심 내용 정리
- Pandas로 CSV, 엑셀 파일 읽기
- Pandas : 단일 프로세스에서는 최대 효율 aka 스테로이드를 맞은 엑셀
import pandas as pd #import로 pandas 사용 선언 from MODULE import function #module에 포함된 function이라는 함수만 사용하겠다
- index : 세로행 / column Namd: 가로행 / Values : 표 안의 값
- 칼럼명 변경
pop_Seoul.rename(columns = {pop_Seoul.coulms[0]: "구별"}
- Pandas 기초
- series : Pandas의 데이터형 구성 기본
- 날짜(혹은 시간) 이용 가능
-DataFrame = index + columns
함수 내용 비고 df.head() 앞 부분의 5개의 데이터 확인 df.index DataFrame의 index 확인 df.coulmns DataFrame의 coulmn 확인 df.values DataFrame의 value 확인 df.info() DataFrame의 기본정보 확인 각 컬럼의 크기와 데이터 형태 확인 df.describe() DataFrame의 통계적 기본 정보 확인 df.sort_values 데이터 정렬 df["A"] A컬럼만 읽기 df[0:3] [n:m] n부터 m-1까지 인덱스나 컬럼의 이름으로 슬라이스 -> 끝 포함 df.loc[:,["A":"B"]] 이름으로도 사용 가능 Pandas의 보편적인 슬라이스 옵션 df.iloc[3] 번호로만 접근 df df[condition]으로 사용 Pandas의 버전에 따라 조금씩 상이, 버전 확인 필요 del df["A"] 특정 칼럼 제거 df.apply(np.cumsum) 각 컬럼별 누적합 - 인구현황 데이터 훑어보기
pop_Seoul.drop([0], inplace=True)
: 0번(첫행)의 합계데이터 삭제
-pop_Seoul["구별"].unique()
: 데이터 초반 검증 ->len 이용 수 조사 가능- 두 데이터 합치기
- merge를 이용한 데이터 병합
-pd.merge(left, right, how="left", on="key")
: left에 key 기준으로 right 병합
-pd.merge(left, right, how="outer", on="key")
: key 기준으로 병합 -> 합집합 출력
-pd.merge(left, right, how="inner", on="key")
: key칼럼에서 두 데이터에 공통분모만 병합 -> 교집합만 출력
-data_result.set_index("구별",inplace=True)
: index를 재지정하는 명령어 set_index- 상관관계 : 두 변량사이에 한쪽이 증가하면 다른 쪽도 증가(또는 감소)하는 경향이 있을 때 이 두 변량사이는 상관관계가 있다고 함(단, 상관관계가 있어도 인과관계는 아님)
표기 : data_result.corr()
- matplotlib의 기초
- matplotlib : 파이썬의 대표 시각화 도구, plt로 naming
- jupyter notebook의 유저의 경우 %matplotlib inline 옵션 사용
- 삼각함수 그리기
-np.arange(a,b,s)
: a부터 b까지의 s간격
-np.sin(value)
- scatter : 점을 뿌리듯이 그리는 그림
def drawGraph(): plt.figure(figsize = (10,6)) plt.scatter(t,y) plt.show()
- colormap : 색을 이용하여 표기
def drawGraph(): plt.figure(figsize = (10,6)) plt.scatter(t, y, s=50, c=colormap, marker=">") plt.colorbar() plt.show()
👩🚀 스터디 감정 노트
코테 두문제나 못푼사람이 여기있다면서요?
아니 근데 왜 vscode 강의안과 같지 않게 가는거야....? ' conda : 'conda' 용어가 cmdlet, ~~' 이 오류만 3시간째 보고 해결하려다가 포기하고 결국 강사님 문의엔딩... 스트레스 받아...🤦♀️🤦♀️🤦♀️
[이미지 출처 : 미리캔버스]