Programmers 인공지능 데브코스 - Week 3 Day 2

donchanee·2020년 12월 15일
0

😃[3주차 - Day2]😃

Pandas

import pandas as pd

s = pd.Series([1, 4, 9, 16, 25])
s[s > s.median()]
# s의 중앙값보다 큰 값들만 가지고 올 수 있습니다.

s[[3,1,4]]
# 인덱스 순서대로 값과 함께 출력이 가능합니다.

s = pd.Series(np.random.randn(5), name="random_nums")
s.name = "임의의 난수"
# 데이터프레임의 이름을 정의해줄 수 있습니다.


d = {"height": [1,2,3,4], "weight": [30,40,50,60]}

df = pd.DataFrame(d)
df.dtypes   # dtype 확인

COVID KAGGLE 데이터
사용하여 아래의 실습 진행합니다.

covid = pd.read_csv("./country_wise_latest.csv")

covid.head(5)
covid.tail(5)
# 위 아래에서 처음 5개 데이터를 확인하는 법입니다.


covid['Active']
covid.Active
# 가져오고 싶은 Column만 가져올 수 있습니다.
# 띄어쓰기가 있을 경우 첫번째 예시를 사용합니다.


covid['Confirmed'][1:5]
# covid[조건...] 도 아래와 같이 가능합니다.
covid[covid['New cases'] > 100]
covid[covid['WHO Region'] == 'Europe']

covid['WHO Region'].unique()
# 중복없이 범주에 속한 데이터를 추출해줍니다.


# 지금까지는 Column에 대해 다뤘지만, Row에 대해 다루는 방법도 알아봅니다.
books_dict = {"Available" : [True,True,False], 
	      "Location" : [1,2,3], 
	      "Genre" : ["Programming", "Physics", "Math"]}
books_df = pd.DataFrame(books_dict, index=['A', 'B', 'C'])

books_df.loc['A']
books_df.loc['C']['Available']
books_df.loc['C', 'Available']
# Row의 인덱스에 접근할 수 있습니다.

books_df.iloc[0,1]
books_df.iloc[1, 0:2]
# iloc은 숫자로 인덱스에 접근할 때에 사용합니다.


# Group by
covid_by_region = covid["Confirmed"].groupby(by=covid["WHO Region"])

covid_by_region.sum()
covid_by_region.mean() # sum() / 국가 수

Github Week3에 가시면 커밋로그를 확인하실 수 있습니다.

0개의 댓글