DS_가설검정

ParkJangSik·2021년 5월 19일
0

Codestates_DS

목록 보기
4/6

주제 : 가설검정

1. 학습 목표

  • Estimation / Sampling의 목적과 방법에 대해서 이해한다.
  • 가설검정에 대해서 이해한다.
  • T-test의 목적과 사용예시를 설명할 수 있다.

2. 과제 질문

  • [Pandas 데이터 불러오기] - skiprows, sep='\t',replace
  • [Pandas DF 조작] - 각 열 조건에 맞는 index 찾아서 지우기
  • [Pandas DF 조작] - DF에서 랜덤하게 10개의 값 추출하기
  • [Pandas DF 조작] - reset_index()

3. 과제 풀이

(1) skiprows, sep='\t', replace

df = pd.read_csv(myurl,sep = '\t',thousands=',', skiprows = 1)
df=df.replace({'-':0})

🌟 sep='\t'를 통해 공백을 구분자로 사용할 수 있다.
🌟 skiprows를 통해 원하는 행을 빼고 출력할 수 있다.
🌟 replace({'-':'0'}) 에서

  • { } 가 쓰인 다는 것과,
  • 이전에는 x.replace(',' , ' ')로 썼었다는 것 알아두기. (차이점이 있나??)

(2) 각 열 조건에 맞는 index 찾아서 지우기

seoul = df[df['자치구']=='서울시' | df['자치구'] == ' 공원녹지사업소'].index

df=df.drop(seoul)

🌟 새로운 변수에 각 열 조건에 맞는 '행'의 index 구하기
🌟 drop을 이용해서 df에서 seoul에 해당하는 열 삭제하기

(3) DF에서 랜덤하게 10개의 값 추출하기

import numpy as np
np.random.seed(123)

rnd_city = np.random.choice(df['자치구'], size = 10) # 특정 열에서 랜덤하게 10개의 값 추출하기
rnd_city

🌟 numpy 불러오기
🌟 seed값 설정하기
(seed값이 같으면 랜덤 결과가 같다)
🌟 np.random.choice 이용해서 DF에서 랜덤하게 값 추출하기

(4) 인덱스 초기화 - reset_index()

df = df.reset_index() 
profile
취준생

0개의 댓글