[인프런] 데이터 분석3

타키탸키·2022년 6월 20일

데이터 사이언스

목록 보기

24/26

경로가 길 때에는 변수로 따로 빼는 것이 좋다
- ex:) path = "sample/sample_code/" / path+'sample.csv'

데이터프레임['컬럼명']
- 특정 컬럼 가져오기
- .head()를 통해 일부 데이터만 가져오는 것이 효율적

.count()
- 없는 데이터를 제외한 데이터 개수

.unique()
- 고유한 필드만 추출
- 리스트로 반환
- len과 함께 사용하여 고유한 필드 개수 구하기

.value_counts()
- 해당 필드 값의 개수(중복)

데이터 필드의 의미를 파악하면 필요없는 필드를 가려낼 수 있다

필요한 컬럼만 추출하기
- 데이터프레임[[컬럼명 리스트]]
- 원하는 컬럼 리스트를 가져온다고 생각하면 편하다

필요한 행만 추출하기
- 데이터프레임[데이터프레임[컬럼명] == 해당 컬럼의 값]
- 조건 서술
- 해당 컬럼의 값이 포함된 행만 추출

.dropna()
- 결측치(NaN)를 단 하나라도 가지고 있는 행 삭제
- 인자로 subset=['컬럼명']을 받으면 해당 컬럼에 대해서만 결측치 판단 후 삭제

.fillna()
- 결측치를 인자로 받은 값으로 대체한다
- 원하는 컬럼에만 적용하고 싶으면 사전형 변수를 만들고 인자로 넘겨준다
  - ex:) nan_data = {'Death': 0, 'Recover': 0}

.groupby['컬럼명']
- 컬럼값이 같은 데이터를 그룹핑하기
- ex:) 국가별로 데이터 분류하기
- 인덱스가 컬럼값(ex:) 국가)으로 바뀜

특정 컬럼값 형변환
- astype
  - 컬럼명과 변경할 타입을 사전처럼 정의
  - { 컬럼명: 변경할 타입 }
- 결측치 미리 제거하고 사용할 것
  - 결측치 있을 경우 에러 발생
.colums = ['컬럼명']
- 컬럼명 변경하기

.duplicated()
- 중복 여부 확인
- true일 경우 중복
- 데이터프레임[데이터프레임.duplicated()]
  - 중괄호 안이 조건식이 되면서 중복된 행만 확인 가능

concat()
- 두 데이터프레임 잇기
- 없는 데이터는 NaN

merge()
- sql의 join과 유사
- 디폴트(inner join)는 동일한 컬럼 기준으로 합치는 것
  - on 옵션으로 명시 가능
- outer
  - 모든 데이터프레임 활용(왼쪽, 오른쪽 모두)
  - 결측치 존재
- left
  - 왼쪽 우선
  - 왼쪽 데이터 모두 가져오고 왼쪽에 존재하는 오른쪽 데이터만 가져온다
  - 결측치 존재
- right
  - 오른쪽 우선
  - 오른쪽 데이터 모두 가져오고 오른쪽에 존재하는 왼쪽 데이터만 가져온다
  - 결측치 존재
- 인덱스를 기준으로 컬럼 사용
  - index 옵션 값 True

There's Only One Thing To Do: Learn All We Can

이전 포스트

[인프런] 데이터 분석2

다음 포스트

[인프런] 데이터 분석4

0개의 댓글