본 내용은 인프런 강의 <데이터 분석을 위한 판다스>를 수강하며 중요한 점을 정리한 글입니다.
판다스 튜토리얼
https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html
컬럼 1개 선택하기
ages = titanic['Age']
ages
->
0 22.0
1 38.0
2 26.0
3 35.0
4 35.0
...
886 27.0
887 19.0
888 NaN
889 26.0
890 32.0
Name: Age, Length: 891, dtype: float64
titanic.shape
-> (891, 12)
: 행이 891이고 12개 컬럼이다.
len(titanic)
-> 891
: 데이터가 891개 들어있기 때문에.
titanic.columns
: titanic 데이터프레임에서 컬럼 이름들만 뽑기
컬럼 2개 이상 선택하기
titanic[['Age', 'Sex']]
->
Age Sex
0 22.0 male
1 38.0 female
2 26.0 female
3 35.0 female
4 35.0 male
... ... ...
886 27.0 male
887 19.0 female
888 NaN female
889 26.0 male
890 32.0 male
891 rows × 2 columns
: 컬럼 2개 이상 선택해줄 때는 titanic['Age', 'Sex'] 이런식으로 써주면 안 된다. 리스트를 넣어줘야 한다. 즉, 컬럼을 선택할 수 있는 대괄호 안에 파이썬 리스트를 넣어준다고 이해하면 된다.
->
titanic]['Age', 'Sex'] ]
=
cols = ['Age', 'Sex'] # 내가 선택하고 싶은 컬럼 이름 리스트를 만들고
titanic[cols] # 그 리스트를 대괄호 안에 넣어준다
print(type(ages))
print(type(age_sex))
->
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>