[부스트캠프 Pre-Cource] 12. Pandas(2)

김상윤·2022년 7월 31일
0

부스트캠프AI-PreCource

목록 보기
12/12

Groupby

  • df.goupby("f1")["f2"].연산()
    : f1 feature의 값이 같은 data들을 하나의 group으로 묶은 뒤,
    해당 data들의 f2 feature 값들을 연산하여 리턴한다.
  • 여러개의 feature로(->계층적) group을 묶을 수도 있다.
  • 두 개의 column으로 groupby를 할 경우, index가 두개 생성
  • index가 2개여도 Series type이다.

unstack()

  • Group으로 묶여진 데이터를 matrix 형태로 전환해줌

grouped

  • groupby에 의해 slpit된 상태 추출

aggregation

  • grouped된 feature 전체 값들에 대한 연산
  • grouped.agg()
    : group 별로 연산 값 추출
  • grouped된 상태에서 특정 feature data에 대한 여러 연산값들을 추출

transformation

  • grouped된 feature element 각각의 값들에 대한 연산

Case Study

date data

월별 통화량 합

Merge & Concat

Merge

  • default : Inner Join
  • 특정 Feature data의 같은 value를 기준으로 두 DataFrame을 합친다.
  • 두 DataFrame의 feature 이름이 다를 때

Join의 종류

  • Left Join
    : 왼쪽 DataFrame의 모든 data를 살려서 가져오고, 오른쪽 DataFrame의 feature에 해당 index에 대한 값이 없으면 NaN으로 할당

Concat

  • 같은 형태의 data를 붙이는 연산작업
  • 밑으로 붙일수도 있고, 옆으로 붙일수도 있다.
    • axis=0 : 밑으로 붙이는 작업 ( Default )
    • axis=1 : 옆으로 붙이는 작업
  • list로 붙일 DataFrame들을 넘겨준다.
    ( apppend() : 밑으로 붙이는 concat과 같은 역할을 하는 명령어)

  • Concat() 후 reset_index()를 통해 index 재할당

0개의 댓글