TIL_20240327

0

오늘은 최종프로젝트때 진행할 주제에 대해서 마무리를 짓지 못해서 다시 팀원들과 이야기하는 시간이 있었다.

우리 팀의 팀장님께서 아마존 데이터를 활용해서 AARRR 분석을 사용해보자고 기획안을 텍스트로 작성해서 공유해주셨고, 내용을 읽어보았다.

기본적으로 AARRR은 퍼널 분석이다. 고객이 서비스 내에서 움직이는 단계를 나누어 놓은 것인데 기업이 고객을 획득하는 순간부터 매출이 일어나고 그 고객이 다른 고객을 더 유치시킬 수 있는지까지의 여정을 분석하는 것이다.

나는 이커머스(전자상거래) 도메인의 직무를 희망하고 있다. 이런 점에서 팀장님이 제시해준 방향이 옳게 느껴졌고, 데이터는 아마존이 아니어도 되니 팀원들과 더 서칭해보았다.

그러다가 나온 것이, 미국의 식품을 배달하는 기업 instacart 의 데이터를 캐글에서 확인하게 되었고, 이 데이터를 활용이 가능한지 체크해보았다.

우선 데이터에 매출, 로그시간, 상품 등 분석에 필요한 컬럼들이 존재하는지 확인했다.

유저의 구매 로그는 이미 정제되어 있어서 다시 역으로 임의의 날짜를 지정해서 시간데이터로 변환할 수 있겠다는 생각까지는 나왔다.

상품의 가격이 없었던 점도 확인했다.

나는 6개의 csv파일로 나뉘어져 있는 데이터가 연결이 될 수 있는지 파악을 했고,
역시 캐글의 활용데이터여서 연결고리는 있었다.
dbeaver를 통해서 ERD를 만들어보는 것을 시도했고, csv파일은 콤마로 구분지어진 행열의 엑셀같은 양식인데, Cell(행) 안에 또 콤마가 있으면 dbeaver로 파일을 가져오는데 문제가 되는 것을 확인했고, 파이썬을 사용하여 콤마를 다른 기호로 변환하고 다시 csv로 저장하여 dbeaver로 옮겨오는 것까지 확인했다.
아래는 서로 연결되는 컬럼끼리 이어놓은 ERD이다.

팀장님의 기획안을 모든 팀원들이 같은 로직을 가지고 바라볼 수 있도록 figma를 통해 시각적으로 디자인해보려 했으나 ERD를 만들어본다고 시간을 너무 많이 할애했다.

내일 이것을 포함한 진행 방향에 대해서 논의가 필요할 것으로 보인다.

분석의 본질, 해결하고자 하는 문제점에 집중을 잃지 말자.
(현재는 어떤 문제를 제기하여 해결해볼지 찾아나가는 중)

profile
Data analyst를 향해 도전하는 이야기

0개의 댓글