[인프런] 데이터 분석3

타키탸키·2022년 6월 20일
0

데이터 사이언스

목록 보기
24/26
  • 경로가 길 때에는 변수로 따로 빼는 것이 좋다
    • ex:) path = "sample/sample_code/" / path+'sample.csv'
  • 데이터프레임['컬럼명']
    • 특정 컬럼 가져오기
    • .head()를 통해 일부 데이터만 가져오는 것이 효율적
  • .count()
    • 없는 데이터를 제외한 데이터 개수
  • .unique()
    • 고유한 필드만 추출
    • 리스트로 반환
    • len과 함께 사용하여 고유한 필드 개수 구하기
  • .value_counts()
    • 해당 필드 값의 개수(중복)
  • 데이터 필드의 의미를 파악하면 필요없는 필드를 가려낼 수 있다
  • 필요한 컬럼만 추출하기
    • 데이터프레임[[컬럼명 리스트]]
    • 원하는 컬럼 리스트를 가져온다고 생각하면 편하다
  • 필요한 행만 추출하기
    • 데이터프레임[데이터프레임[컬럼명] == 해당 컬럼의 값]
    • 조건 서술
    • 해당 컬럼의 값이 포함된 행만 추출
  • .dropna()
    • 결측치(NaN)를 단 하나라도 가지고 있는 행 삭제
    • 인자로 subset=['컬럼명']을 받으면 해당 컬럼에 대해서만 결측치 판단 후 삭제
  • .fillna()
    • 결측치를 인자로 받은 값으로 대체한다
    • 원하는 컬럼에만 적용하고 싶으면 사전형 변수를 만들고 인자로 넘겨준다
      • ex:) nan_data = {'Death': 0, 'Recover': 0}

  • .groupby['컬럼명']
    • 컬럼값이 같은 데이터를 그룹핑하기
    • ex:) 국가별로 데이터 분류하기
    • 인덱스가 컬럼값(ex:) 국가)으로 바뀜
  • 특정 컬럼값 형변환
    • astype
      • 컬럼명과 변경할 타입을 사전처럼 정의
      • { 컬럼명: 변경할 타입 }
    • 결측치 미리 제거하고 사용할 것
      • 결측치 있을 경우 에러 발생
  • .colums = ['컬럼명']
    • 컬럼명 변경하기
  • .duplicated()
    • 중복 여부 확인
    • true일 경우 중복
    • 데이터프레임[데이터프레임.duplicated()]
      • 중괄호 안이 조건식이 되면서 중복된 행만 확인 가능

  • concat()
    • 두 데이터프레임 잇기
    • 없는 데이터는 NaN
  • merge()
    • sql의 join과 유사
    • 디폴트(inner join)는 동일한 컬럼 기준으로 합치는 것
      • on 옵션으로 명시 가능
    • outer
      • 모든 데이터프레임 활용(왼쪽, 오른쪽 모두)
      • 결측치 존재
    • left
      • 왼쪽 우선
      • 왼쪽 데이터 모두 가져오고 왼쪽에 존재하는 오른쪽 데이터만 가져온다
      • 결측치 존재
    • right
      • 오른쪽 우선
      • 오른쪽 데이터 모두 가져오고 오른쪽에 존재하는 왼쪽 데이터만 가져온다
      • 결측치 존재
    • 인덱스를 기준으로 컬럼 사용
      • index 옵션 값 True
profile
There's Only One Thing To Do: Learn All We Can

0개의 댓글