[제로베이스 데이터취업스쿨 15기] Part. 4 EDA 스터디노트 -18(5.25./5.26./5.29.)

DaHye CHOI·2023년 5월 29일
0

>⛹️‍♀️ 제로베이스 데이터취업스쿨 15기 스터디노트 18(5.25./5.26/5.29.)

🗂️ 오늘(5.29.)까지 수강한 분량

파이썬테스트(5.25.)/ EDA CCTV 1~3

🗂️ EDA CCTV 1~3 핵심 내용 정리

  • Pandas로 CSV, 엑셀 파일 읽기
    • Pandas : 단일 프로세스에서는 최대 효율 aka 스테로이드를 맞은 엑셀
  • import pandas as pd #import로 pandas 사용 선언
    from MODULE import function #module에 포함된 function이라는 함수만 사용하겠다
  • index : 세로행 / column Namd: 가로행 / Values : 표 안의 값
  • 칼럼명 변경 pop_Seoul.rename(columns = {pop_Seoul.coulms[0]: "구별"}
  • Pandas 기초
  • series : Pandas의 데이터형 구성 기본
  • 날짜(혹은 시간) 이용 가능
    -DataFrame = index + columns
  • 함수내용비고
    df.head()앞 부분의 5개의 데이터 확인
    df.indexDataFrame의 index 확인
    df.coulmnsDataFrame의 coulmn 확인
    df.valuesDataFrame의 value 확인
    df.info()DataFrame의 기본정보 확인각 컬럼의 크기와 데이터 형태 확인
    df.describe()DataFrame의 통계적 기본 정보 확인
    df.sort_values데이터 정렬
    df["A"]A컬럼만 읽기
    df[0:3][n:m] n부터 m-1까지인덱스나 컬럼의 이름으로 슬라이스 -> 끝 포함
    df.loc[:,["A":"B"]]이름으로도 사용 가능Pandas의 보편적인 슬라이스 옵션
    df.iloc[3]번호로만 접근
    dfdf[condition]으로 사용Pandas의 버전에 따라 조금씩 상이, 버전 확인 필요
    del df["A"]특정 칼럼 제거
    df.apply(np.cumsum)각 컬럼별 누적합
  • 인구현황 데이터 훑어보기
    • pop_Seoul.drop([0], inplace=True) : 0번(첫행)의 합계데이터 삭제
      -pop_Seoul["구별"].unique() : 데이터 초반 검증 ->len 이용 수 조사 가능
  • 두 데이터 합치기
    • merge를 이용한 데이터 병합
      - pd.merge(left, right, how="left", on="key")
      : left에 key 기준으로 right 병합
      - pd.merge(left, right, how="outer", on="key")
      : key 기준으로 병합 -> 합집합 출력
      - pd.merge(left, right, how="inner", on="key")
      : key칼럼에서 두 데이터에 공통분모만 병합 -> 교집합만 출력
      -data_result.set_index("구별",inplace=True) : index를 재지정하는 명령어 set_index
    • 상관관계 : 두 변량사이에 한쪽이 증가하면 다른 쪽도 증가(또는 감소)하는 경향이 있을 때 이 두 변량사이는 상관관계가 있다고 함(단, 상관관계가 있어도 인과관계는 아님)
      표기 : data_result.corr()
  • matplotlib의 기초
  • matplotlib : 파이썬의 대표 시각화 도구, plt로 naming
    • jupyter notebook의 유저의 경우 %matplotlib inline 옵션 사용
  • 삼각함수 그리기
    -np.arange(a,b,s): a부터 b까지의 s간격
    -np.sin(value)
  • scatter : 점을 뿌리듯이 그리는 그림
    def drawGraph():
    	plt.figure(figsize = (10,6))
       plt.scatter(t,y)
       plt.show()
  • colormap : 색을 이용하여 표기
    def drawGraph():
    	plt.figure(figsize = (10,6))
       plt.scatter(t, y, s=50, c=colormap, marker=">")
       plt.colorbar()
       plt.show()

👩‍🚀 스터디 감정 노트

코테 두문제나 못푼사람이 여기있다면서요?
아니 근데 왜 vscode 강의안과 같지 않게 가는거야....? ' conda : 'conda' 용어가 cmdlet, ~~' 이 오류만 3시간째 보고 해결하려다가 포기하고 결국 강사님 문의엔딩... 스트레스 받아...🤦‍♀️🤦‍♀️🤦‍♀️

[이미지 출처 : 미리캔버스]

profile
데이터가 궁금한 비전공자의 데이터스터디🫠

0개의 댓글