Daily reflection - 3

박경국·2022년 5월 16일
0
post-thumbnail

공부 과정을 기록하는 페이지입니다. 다음 원칙을 지켰는지 확인합니다.
1. 레퍼런스에서 어떤 부분을 더 발전시켰는지
2. DA에서 사용하는 언어와 개념을 나의 언어로 설명할 수 있는지

레퍼런스를 더 발전시킨 내용

Groupby

SQL을 공부한 덕에 pandas의 Groupby를 개념적으로 더 잘 이해하게 됐다. 그루핑된 칼럼을 기준으로 새로운 df이 내부적으로 만들어졌다고 보면 좋을 것 같다. 각각의 df(즉, 그루핑된 df)에 대해 aggregate 함수가 각각 적용되고, 칼럼에 속하는 값이 재집계된다.

groupby가 인자로 받는 변수는 그루핑할 변수를 의미하고, 메소드로 이어주는 변수는 그루핑된 변수를 기준으로 집계할 데이터를 의미한다. 그리고 해당 변수에 agg, describe 등의 함수를 적용하면 그룹화된 데이터에 대해 연산을 진행한다. 진행 중인 프로젝트에서는 Groupby 기능을 활용해서 제품 별 view, cart, sales를 agg 함수를 통해 집계했다.

그리고 pivot_table 기능을 활용해서 Action_type 칼럼에 속했던 view, cart, sales를 칼럼으로 전환시켰다. 아래의 이미지가 pivoting한 테이블이다.

공부가 더 필요한 부분

  • 메모리 관리가 중요하다. 5GB의 데이터셋을 다루는데도 코랩의 RAM이 위태위태하다. 어떻게 메모리를 효율적으로 사용할 수 있을지 고민해봐야겠다.
  • 지표를 어떻게 정의하고 사용할지 기준을 세워야 한다. 같은 지표인데도 상황에 따라서 다르게 해석하려고 한다. 두 가지 해석이 가능한 것인지, 아니면 내가 자의적으로 해석하는 것인지 판단이 어렵다. 팀 안에서 논의해봐야겠다.

0개의 댓글