[230109] 멋쟁이사자처럼 AI SCHOOL 8기 '판다스기초_박조은강사님' 복습

조세연·2023년 1월 12일
0

멋사 AI SCHOOL 8기

목록 보기
10/35

📝Today I learned

🚀 TIL 목차 🚀

  • 판다스(Pandas) 기초
    • 판다스란?
    • 데이터프레임 살펴보기
    • 데이터프레임 수정하기
    • 파일 저장 및 불러오기

판다스(Pandas) 기초

1) 판다스란?

  • Pandas : Panel Data System : 파이썬 데이터 처리를 위한 라이브러리
    *Panel : 다차원데이터(계량경제학)

  • 목적 : 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것

  • 특징 : '시리즈(1차원벡터)'와 '데이터프레임(2차원벡터, 행렬)'이라는 구조화된 데이터 형식 제공

2) 데이터프레임 살펴보기

🔹 데이터프레임의 정보 확인하기

# 데이터프레임의 개요 보기
df.info()

# 데이터프레임의 크기 보기 → (행, 열)
df.shape

# 데이터프레임 내 데이터의 타입 보기
df.dtypes

# 데이터프레임 내 수치형 데이터의 기술통계값 보기
df.describe()

# 데이터프레임 내 범주형 데이터의 기술통계값 보기
df.describe(include='object')
df.describe(include='O')

🧉 기술통계값 관련 용어

  • 'count': 결측치를 제외한 빈도수
  • 'unique': 유일값
  • 'top': 최빈값(mode)
  • 'freq': 최빈값의 빈도수

🔹 데이터프레임 내 데이터 가져오기

  • loc와 iloc
    • .loc => 인덱스(행), 컬럼명(열) 기준
      (값을 기준으로 하기 때문에 마지막 값 포함)
    • .iloc => 순서 기준
      (순서대로 값을 가져오기 때문에 마지막 값 포함 X)
# 0~2번째 행 & '컬럼1'과 '컬럼2' 열 데이터 가져오기
df.loc[[0, 1, 2], ["컬럼1", "컬럼2"]] 

# 0~2번째 행 & 0~1번째 열 데이터 가져오기
df.iloc[:3, :2]
  • 2개 이상 칼럼명 가져오기 -> 리스트 형태
df[["칼럼명1", "칼럼명2"]]
  • 조건에 따른 데이터 가져오기 -> boolean indexing
# '과일이름' 컬럼에서 'berry'가 포함된 데이터 가져오기
df["과일이름"].str.contains("berry")
  • 특정 가격 이상인 데이터 가져오기
# '가격' 컬럼에서 12000원 이상인 데이터만 가져오기
df[df["가격"] >= 12000]

🧉 주의해야 할 데이터 타입

  • NaN (Not a Number) : 결측치. 데이터 타입은 float

3) 데이터프레임 수정하기

🔹 컬럼 삭제하기

# '컬럼명1'이라는 컬럼 삭제하기
df = df.drop(columns = “컬럼명1) # df = df.drop("컬럼명1", axis=1)
df

🔹 데이터프레임 정렬하기

df = df.sort_values(by=["과일이름", "가격"])
df

문자열 : 영어 -> 한글
by 뒤에 적힌 순서에 따라 정렬

🧉 데이터프레임에서 데이터를 수정하고 난 뒤 변수에 다시 저장해야 적용이 된다!

4) 파일 저장 및 불러오기

🔹 파일 저장

# csv 파일로 저장
df.to_csv("file_name.csv", index=False)

🔹 파일 불러오기

pd.read_csv("file_name.csv")

❗이것만은 외우고 자자 Top 3

📌 데이터 프레임 내 범주형 데이터의 기술통계값을 보고싶을 때 : df.describe(include='object')

📌 .loc와 .iloc의 차이
.loc => 인덱스(행), 컬럼명(열) 기준
(값을 기준으로 하기 때문에 마지막 값 포함)
.iloc => 순서 기준
(순서대로 값을 가져오기 때문에 마지막 값 포함 X)

📌 데이터프레임에서 데이터를 수정하고 난 뒤 변수에 다시 저장해야 적용이 된다

🌟데일리 피드백

1. 오늘의 칭찬&반성

판다스 책 사서 혼자서라도 꾸물꾸물 일단 시작한 과거의 나자신을 칭찬한다!
확실히 반복하니 이해가 더 잘된다.

2. 내가 부족한 부분

데이터를 다루기 전 어떻게 분석할까 기획을 하는 것. 실제 프로젝트를 하면서 역량을 길러야겠다.

3. 내일의 목표

오늘처럼 집중 잘하기

profile
HR Analyst가 되고 싶은

0개의 댓글