- 판다스(Pandas) 기초
- 판다스란?
- 데이터프레임 살펴보기
- 데이터프레임 수정하기
- 파일 저장 및 불러오기
Pandas : Panel Data System : 파이썬 데이터 처리를 위한 라이브러리
*Panel : 다차원데이터(계량경제학)
목적 : 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것
특징 : '시리즈(1차원벡터)'와 '데이터프레임(2차원벡터, 행렬)'이라는 구조화된 데이터 형식 제공
🔹 데이터프레임의 정보 확인하기
# 데이터프레임의 개요 보기
df.info()
# 데이터프레임의 크기 보기 → (행, 열)
df.shape
# 데이터프레임 내 데이터의 타입 보기
df.dtypes
# 데이터프레임 내 수치형 데이터의 기술통계값 보기
df.describe()
# 데이터프레임 내 범주형 데이터의 기술통계값 보기
df.describe(include='object')
df.describe(include='O')
🧉 기술통계값 관련 용어
🔹 데이터프레임 내 데이터 가져오기
# 0~2번째 행 & '컬럼1'과 '컬럼2' 열 데이터 가져오기
df.loc[[0, 1, 2], ["컬럼1", "컬럼2"]]
# 0~2번째 행 & 0~1번째 열 데이터 가져오기
df.iloc[:3, :2]
df[["칼럼명1", "칼럼명2"]]
# '과일이름' 컬럼에서 'berry'가 포함된 데이터 가져오기
df["과일이름"].str.contains("berry")
# '가격' 컬럼에서 12000원 이상인 데이터만 가져오기
df[df["가격"] >= 12000]
🧉 주의해야 할 데이터 타입
🔹 컬럼 삭제하기
# '컬럼명1'이라는 컬럼 삭제하기
df = df.drop(columns = “컬럼명1”) # df = df.drop("컬럼명1", axis=1)
df
🔹 데이터프레임 정렬하기
df = df.sort_values(by=["과일이름", "가격"])
df
문자열 : 영어 -> 한글
by 뒤에 적힌 순서에 따라 정렬
🧉 데이터프레임에서 데이터를 수정하고 난 뒤 변수에 다시 저장해야 적용이 된다!
🔹 파일 저장
# csv 파일로 저장
df.to_csv("file_name.csv", index=False)
🔹 파일 불러오기
pd.read_csv("file_name.csv")
📌 데이터 프레임 내 범주형 데이터의 기술통계값을 보고싶을 때 : df.describe(include='object')
📌 .loc와 .iloc의 차이
.loc => 인덱스(행), 컬럼명(열) 기준
(값을 기준으로 하기 때문에 마지막 값 포함)
.iloc => 순서 기준
(순서대로 값을 가져오기 때문에 마지막 값 포함 X)
📌 데이터프레임에서 데이터를 수정하고 난 뒤 변수에 다시 저장해야 적용이 된다
판다스 책 사서 혼자서라도 꾸물꾸물 일단 시작한 과거의 나자신을 칭찬한다!
확실히 반복하니 이해가 더 잘된다.
데이터를 다루기 전 어떻게 분석할까 기획을 하는 것. 실제 프로젝트를 하면서 역량을 길러야겠다.
오늘처럼 집중 잘하기