판다스 (Pandas)에 대하여

한슬희·2021년 10월 12일
2

Data

목록 보기
1/3
post-thumbnail

판다스란?

Python Data Analysis Library로
파이썬에서 가장 많이 쓰이는 데이터 분석 라이브러리다.

판다스는 '데이터 프레임'이라는 자료구조를 사용한다.
👉🏻 데이터 프레임이란 테이블(표) 형태의 데이터를 저장하여 엑셀의 시트와 비슷하다.

판다스 라이브러리 불러오기

import pandas as pd

as 뒤에 pandas라 해도 되지만 간결성을 위해 관례적으로 pd를 사용한다.

데이터 프레임 생성과 출력

생성은 DataFrame클래스,
출력은 head() 메소드를 이용한다.

// 판다스의 데이터 프레임 생성
names = ['Stella', 'John']
births = [326, 722]

BabyDataSet = list(zip(names, births))
df = pd.DataFrame(data = BabyDataSet, columns = ['Names', 'Births'])

// df를 출력해라
df.head()

여기서 zip이란 크기가 같은 리스트를 tuple(튜플) 형태로 만들어 준다.
위의 코드를 보면 zip(names, births)는 ('Stella', 326), ('John', 722)이 된다.

이후 list로 감싸주어 zip을 리스트 형태로 만들어 준다.

만들어진 리스트를 data라는 매개변수에 전달해주면 DataFrame이 생성된다.
columns를 지정하면 열제목을 지정할 수 있다.

마지막에 head() 메소드로 출력하였다.
head()의 가로 안에 인자로 숫자를 넣을 수 있다.

추가적으로 head() 메소드의 default 값은 5이다.

실행결과

데이터 프레임 기본 정보 출력

데이터 프레임은 dtypes, index, columns이라는 속성을 가지고 있다.

dtypes

데이터 프레임 객체 내 각 열의 자료형을 알려준다.

실행결과

index

데이터 프레임 객체의 인덱스 (행 라벨) 정보를 알려준다.
인덱스는 0부터 시작한다.

실행결과

RangeIndex는 특정 범위를 알려주는데 시작 점이 0이고 2개의 원소를 가지고 있다.

columns

데이터 프레임 객체의 열 라벨 정보를 보여준다.

실행결과

데이터 프레임 데이터 출력

열 선택하기 (시리즈 반환)

실행결과

행(인덱스) 선택하기 (데이터 프레임 반환)

df[0:2]는 0보다 크거나 같고 2보다 작은 것을 뜻한다.
df[:]는 다 출력!
실행결과

왜 df['Names']는 출력결과가 텍스트로 나오고 df[0:2]는 표로 나올까? 🤔

왜냐하면 시리즈는 데이터의 나열, 데이터 프레임은 시리즈의 합이기 때문에 출력 양식이 다르게 나온다.

평균값 계산

mean() 메소드

데이터 프레임의 열 중 평균 계산할 수 있는 열의 평균을 계산하여 반환한다.

실행결과

마무리

행과 열이 헷갈린다면 어릴 적 선생님께서 일렬로 서! 할 때 가로가 아닌 세로로 섰기 때문에 열은 세로 행은 가로라 외우면 까먹지 않을 것 같다. 🙄

공식문서도 읽어보면 많은 도움이 된다.
판다스(pandas)

profile
🧡 Frontend developer / 어제보다 오늘 더 성장한 개발자

1개의 댓글

comment-user-thumbnail
2021년 10월 19일

저도 행과 열이 헷갈릴 때가 많은데 정말 귀여운 비유같아요 ㅋㅋㅋㅋ 좋은 글 잘보고 갑니다 ~~~ 😀

답글 달기