데이터 분석 - Pandas 기본

Eunjin Kim·2022년 4월 9일
0

DATA

목록 보기
1/2

Pandas 란?

  • Python Data Analysis Library
  • Expressive data structures designed to make working with “relational” or “labeled” data both easy and intuitive

1. Series.ipynb

  • 1차원 데이터 (정수,실수, 문자열 등)
temp = pd.Series([-20, -10, 10, 20], index = ['Jan', 'Feb', 'Mar', 'Apr'])
temp

2. DataFrame.ipynb

  • 2차원 데이터(Series 들의 모임)
df = pd.DataFrame(data)

3. Index.ipynb

  • 데이터에 접근할 수 있는 주소 값

4. 파일 저장 및 열기.ipynb

  • DataFrame 객체를 excel, csv, txt 등 형태의 파일로 저장 및 열기

5. 데이터 확인.ipynb

  • 계산 가능한 데이터에 대해 Column 별로 데이터의 갯수, 평균, 표준편차, 최소/최댓값 등의 정보를 보여줌.
df.descibe()
df.head(5)
df.tail()  # 마지막 5개 row를 가져옴

## Series 확인
df[label].min()
df[label].unique()   # 등등

6 ~ 9. 데이터 선택 (기본, loc, iloc, 조건).ipynb

  • loc : 이름을 이용해서 원하는 row에서 원하는 col 선택
df.loc['1번', '국어']  # index 1번에 해당하는 국어 데이터
df.loc['1번':'5번','국어':'사회'] # index 1번부터 5번까지
  • iloc: 위치를 이용하여 원하는 row에서 원하는 col 선택
df.iloc[0]  # 0번째 위치의 데이터
df.iloc[[0, 1], 2]  # 0, 1번째 위치에서의 2번째(키) 데이터
  • 조건: &(그리고), |(또는), str함수(startswith(), contains(), etc) 등

10. 결측치.ipynb

  • 비어 있는 데이터
df.fillna('') # NaN 데이터를 빈 칸으로 채움

df.dropna(inplace=True)  # 전체 데이터 중에서 NaN을 포함하는 데이터 삭제

11. 데이터 정렬.ipynb

df.sort_values('키', ascending=False)  # 키 기준으로 내림차순 정렬

df.sort_index()

12. 데이터 수정.ipynb

df['학교'].replace({'북산고':'상북고'}, inplace=True)  # 적용하려면 inplace=True 해주기

df['SW특기'].str.lower()  # 소문자
df['SW특기'] = df['SW특기'].str.upper()  # 대문자

# Column 추가
df.loc[df['총합'] > 400, '결과'] = 'Pass'  # 총합이 400보다 큰 데이터에 대해서 결과를 Pass로 업데이트
df
# Column 삭제
df.drop(columns=['총합'])  # 총합 column을 삭제
# Row 추가
df.loc['9번'] = ['이정환', '해남고등학교', 184, 90, 90, 90, 90, 90, 'Kotlin', 450, 'Pass']
df
# Row 삭제
filt = df['수학'] < 80  # 수학 점수 80 점 미만 학생 필터링
df[filt]

13. 함수 적용.ipynb

  • 함수 적용시 데이터 type 신경 쓰기

14. 그룹화 .ipynb

  • 동일한 값을 가진 것들끼리 합쳐서 통계 또는 평균 등의 값을 계산하기 위해 사용
  • df.groupby() 응용
profile
ALL IS WELL🌻

0개의 댓글