[인프런] 데이터 분석2

타키탸키·2022년 6월 19일
0

데이터 사이언스

목록 보기
23/26
  • pandas
    • 테이블형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리
  • raw data
    • 원본 데이터
    • 데이터 분석을 위해 정제되지 않은 기본 데이터
  • 전처리
    • 데이터를 정제하는 과정
  • 시리즈
    • 열 하나(1차원 데이터)
    • 인덱스 0부터 시작
    • 인덱스 값 수정 가능
    • .Series
      • create
      • 인자: 리스트
    • index
      • 옵션
      • 인덱스 수정
      • 인자: 리스트
    • .index
      • 인덱스명 수정
    • 값 추출
      • .values
      • 시리즈명[인덱스명]
      • 시리즈명[인덱스 번호]
    • 값 수정
      • 시리즈명[인덱스명] = 값
    • 값 삭제
      • del 시리즈명[인덱스명]
  • 데이터 프레임
    • 열이 두 개 이상(2차원 데이터)
    • 여러 개의 시리즈
  • CRUD
    • C: Create
    • R: Read
    • U: Update
    • D: Delete
  • pandas 데이터 타입(dtype)
    • object = string
    • 시계열 데이터
      • datetime(날짜/시간)
      • timedelta(두 datatime 간의 차)
    • 여러 데이터 타입이 있을 때는 object

  • 데이터 프레임
    • 인덱스 + values + 컬럼
  • .DataFrame()
    • 데이터 프레임 생성
    • 인자: 키, 값
      • 사전형, JSON과 유사한 형태
    • 값은 보통 리스트 형태
    • 인덱스와 함께 생성
      • index 옵션
  • .index
    • 인덱스 이름 불러오기
    • 인덱스 이름 수정하기(=[바뀐 이름])
  • .colums
    • 열 이름 불러오기
    • 열 이름 수정하기(=[바뀐 이름])
  • .values
    • 값 가져오기
    • 여러 개의 리스트
  • .set_index('컬럼명')
    • 해당 컬럼이 인덱스가 된다
    • 바뀐 데이터 프레임을 적용하려면 df 변수에 넣어줘야 한다
      • 원본 데이터 프레임을 바꾸지 않는다
    • .index.name
      • 인덱스명 접근
    • .reset_index('컬럼명')
      • 다시 컬럼으로 복귀
  • .loc
    • 인덱스 이름을 통해 값 찾기
    • 인자 데이터 타입 맞추기
      • 인덱스가 문자열이면 문자열 인자
  • .lioc
    • 인덱스 번호를 통해 값 찾기
    • 0부터 시작
  • 열을 통해 값 가져오기
    • 데이터 프레임 이름[컬럼 이름]
  • 특정 값만 가져오고 싶을 때
    • 데이터 프레임[컬럼][인덱스]
    • 데이터프레임.loc[인덱스][컬럼]

  • 컬럼 추가하기
    • 데이터 프레임['새로운 컬럼명`] = 값
  • 행 추가하기
    • 잘 사용하지는 않는다
    • 데이터 프레임.loc['새로운 인덱스'] = 값
  • 행 삭제하기
    • 데이터 프레임.drop(['인덱스 이름'])
      • 리스트 타입으로 넣을 것
  • .copy()
    • 데이터 프레임 컬럼 선택(복사)
    • 원본 데이터를 건드리지 않기 위해 복사 사용
    • df2 = 데이터프레임[['컬럼','컬럼']].copy()

  • EDA
    • 데이터 출처
      • ex:) 웹 / 안드로이드 / ios...
    • 데이터 크기
      • 너무 작지도 크지도 않게 기간 설정 등을 잘하자
    • 데이터의 속성

  • .read_csv
    • pandas 라이브러리로 csv 파일 읽기
    • error_bad_lines=False
      • 에러 데이터 생략 옵션
  • .head()/.tail()
    • 데이터 일부 확인
    • 인자: 가져올 데이터 개수
  • .shape
    • (행 개수, 열 개수)
  • .info()
    • 누락된 데이터 개수 파악 가능

  • .columns
    • 각 컬럼이 가지고 있는 의미 파악할 것
  • 시각화 라이브러리
    • matplotlib과 seaborn(기존)
    • plotly(최신)
  • .heatmap
    • 상관 관계를 시각화할 때 자주 사용
    • seaborn 라이브러리 기능
    • data에는 테이블 형태의 자료 넣기
    • annot은 heat 맵 안에 값을 표시한다
    • 색이 진할수록 상관관계가 높다
profile
There's Only One Thing To Do: Learn All We Can

0개의 댓글