DACON 포스트 코로나 데이터 시각화 경진대회

KO SWIMMING·2022년 5월 23일
0
post-thumbnail

2022년에 쓰는 과거의 프로젝트 후기 시리즈 #1
DACON 포스트 코로나 데이터 시각화 경진대회

내 머리속에만 있는 프로젝트 경험들을 기록으로 남겨야할 것 같아 시작하는 시리즈 제 1막이다!

해당 프로젝트는 교내 데이터 분석 동아리 들어가서 처음으로 도전해본 데이터분석, 시각화 프로젝트였다.
당시 제출은 하지 못했고, 첫 시도라 많이 어설프기도 하지만 데이터 분석이 재밋다고 느껴진 계기가 된 프로젝트를 소개해보겠다


INTRO

대회 소개

2020년 7월에 진행된 데이터 시각화 대회로 제공 데이터는 다음과 같다

  1. fpopl.csv (1.6GB)
    : 행정동별 유동인구 데이터
  2. adstrd_master.csv (256KB)
    : 8자리 행정동 코드 데이터
  3. card.csv (0.2GB)
    : 업종 별 결재금액 데이터
  4. delivery.csv (1.5GB)
    : 배달 호출 정보 데이터
  5. index.csv (8MB)
    : 품목 별 소비지수 데이터
  6. COVID_19 (625KB)
    : 코로나 확진자 데이터
  7. COVID_eng_kor_table.xlsx (20KB)
    : 코로나 데이터 province, city 컬럼 영/한 변환 테이블 (Google Translate API 사용)

분석방향

팀은 나를 포함한 총 3명으로 구성하였으며 6,7번 코로나 데이터는 공통적으로 보되, 데이터를 하나씩 맡아서 분석해보는 방향으로 진행하였다.
당시 내가 주로 분석한 데이터는 index.csv : 품목 별 소비지수fpopl.csv : 행정동별 유동인구이었다.

  • index.csv : 품목 별 소비지수

    201901~202005 기간동안 카테고리성장지수(cgi) 데이터로,
    여기서 카테고리 성장지수란 '2018년 월평균 대비 매출 성장 비율'로, 100을 기준으로 이상이면 매출 상승, 이하면 하락을 나타낸다고 한다.

  • fpopl.csv (1.6GB) : 행정동별 유동인구 데이터

데이터 별로 서울지역만 있는 데이터도 있고 여러 지역에 대한 데이터도 있어 서울로 분석범위를 한정하는 것으로 결정하고 분석을 시작하였다.

🤸‍♀️데이터 시각화

😷코로나 상황 파악

앞서 대회소개에서 알 수 있듯 대회는 2020.07에 이뤄졌고, 데이터는 2020.05까지의 데이터가 제공되었다. 따라서 분석 역시 코로나전(2018~19)~2020.05까지의 코로나 상황 및 업종별 변화를 살펴본 결과로 2022시점에서 "코로나 초기에는 이런 상황이었구나~"정도로 보면 감사하겠다.
(그도 그럴 것이 지금 보니까 그래프 매우 조잡..읍읍😂)


코로나 초반 사회적/정책적 상황을 정리한 타임라인과 지역별 코로나 확진자 추이 그래프이다. 이후의 분석들을 이해하는데 기초가 되는 정보로 볼 수 있다.
(어우 그래프 가독성 떨어지는 것좀 봐)

🚶유동인구 변화

① 신천지 확진자(2/18) ②이태원 확진자(5/02)를 기점으로 전국 유동인구를 파악하였다.
31번 확진자 측 신천지 확진자가 발생한 시점 이후로는 전국 유동인구가 크게 변화한데 반해 이태원 클럽 집단 감염 시작인 66번 확진자 이후에는 전국 유동인구에 큰 변화가 없는 것으로 확인된다.

서울지역의 유동인구 변화율만 살펴본 결과이다. 오른쪽 지도에 나타낸 지표는 유동인구 변화율로

코로나로 인한 소비시장 변화

코로나 상황을 살펴 보았으니 이제는 소비시장의 변화를 살펴보려 한다.
해당 대회가 2020년 7월에 진행되었고, 제공 데이터가 2019~2020.5 기간동안의 데이터임에 따라 2020년 5월 까지의 소비시장 분석이 진행되어 '그땐 그랬지~' 느낌으로 봐주길 바란다...^^
분석은 2020년의 주차별 판매량과 2018년 대비 소비지수 비교 위주로 진행될 것이다.

2020년 코로나로 인한 변화가 두드러지는 주

  • 4주차 : 국내 1호 코로나 확진자 발생
  • 4~5주차 : 설날
  • 8주차 : 대구 집단감염 시작
  • 16~17주차 : 강화된 사회적 거리두기
  • 20주차 : 이태원 클럽 집단 감염자 발생 시작

🏢홈퍼니싱 시장

홈퍼니싱 ?
: 집(home)과 단장하는(furnishing)의 합성어로 가구나 조명, 인테리어 소품 등으로 집안을 꾸밀 수 있는 제품을 일컫는다.
(출처 : 네이버 국어사전)

국내 1호 코로나 확진자가 발생하고, 설날이 끼어있는 4~5주차에 잠시 홈퍼니싱관련 시장에 대한 판매량이 늘어났다. (아마 설맞이 할인도 있지 않았을까..)
이후 판매량이 줄어들었지만, 대구 집단감염이 시작된 8주차에 다시 홈퍼니싱 시장 판매량이 급증하고 5월까지 지속된 것을 확인할 수 있다.
이는 코로나 심화로 인해 언택트 사회에 들어서면서 회사에서는 재택을, 학교에서는 비대면 수업을 진행함에 따라 사람들이 집에 있는 시간이 증가하면서 '집꾸미기'에 대한 수요가 늘어난 것으로 파악된다.

💪건강식품 시장


건강식품 시장은 판매 품목의 특성상 설선물에 대한 수요가 많아 1~3주차에 비해 설이 끼어있는 4,5주차에 판매량이 급증한 것을 볼 수 있다.
코로나의 영향으로는 국내 1호 코로나 확진자가 발생한 4주차 이후이자 설날 영향이 없을 것이라 판단되는 6~7주차 건강식품 판매량이 1~3주차 보다 많은 판매량을 보였으며, 대구 집단 감염이 시작된 8주차 부터 건강식품의 판매량이 급증하였다. 또한 이태원 클럽 집단감염이 발생한 20주차 이후 모든 건강식품의 판매량이 다시 한 번 급증한것 또한 확인할 수 있다.
코로나 상황이 악화되는 시점마다 건강식품의 판매량이 늘어났다는 것은 사람들로 하여금 코로나로부터 자신 혹은 지인들을 보호하기 위해 건강기능식품에 대한 판매량이 증가한 것으로 볼 수 있다.

🚭담배 시장

<식품 시장 2019,2020년 월별 2018년 대비 소비지수 그래프>

<2019, 2020년 담배시장 소비지수 그래프>

해당 그래프들은 2018년 대비 2019년과 2020년의 품목별 소비지수 변화를 본 것으로, 100이 넘으면 2018년 보다 소비량이 많은 것으로 볼 수 있다.
식품시장의 소비지수 변화를 보기 위해 위의 그래프를 그려보았는데, 다른 식품 소분류 보다 담배 시장의 소비가 2019년과 2020년 모두 2018년에 비해 크게 증가한 것을 볼 수 있었다.
2019년과 2020년 담배시장의 소비지수만 비교해보면 기준이 2018년인 것을 고려하더라도 2019년 담배 시장 소비지수보다 2020년의 담배 소비지수가 평균 약 140 에서 150으로 증가한 것을 알 수 있었다.
이렇게 2020년 담배에 대한 소비가 증가한 것은 코로나 지속으로 인한 우울증 즉, '코로나 블루'의 영향이 있을 것으로 판단하였다. 코로나 블루란 '코로나19+우울감(blue)'의 합성어로 코로나 19로 일상에 큰 변화로 인해 생긴 우울감이나 무기력증을 뜻하는 신조어이다. 감염병 사태라는 환경과 사람들을 못만나는 언택트 사회의 도입으로 인해 사람들로 하여금 우울감이 증가하였고 이로 인해 담배의 소비 또한 증가한 것으로 보인다.

💄뷰티 시장


뷰티 시장의 경우 앞서 살펴본 시장들과는 달리 코로나로 인해 침체된 시장이라고 볼 수 있다.
2019년의 2018년 대비 소비지수를 살펴보면 대부분 100언저리로 2018년과 큰 변화가 없고 달이 지속됨에 따른 특징적인 변화추세또한 없는 것으로 보인다. (들쭉날쭉..)
반면 2020년의 경우 모든 뷰티 시장이 1월부터 5월까지 지속적으로 감소한 것을 볼 수 있다.
이는 코로나19로 인해 모든 사람이 마스크 착용이 의무화됨에 따라 보여지는 얼굴이 줄어듦에 따라 꾸밈의 필요성이 줄어들고 화장을 하고 마스크를 착용하는 것에 대한 불편함으로 인한 소비 감소라고 볼 수 있다.

분석이 되진 않았지만 경험적 근거를 추가해 보자면, 코로나가 지속됨에 따라 뷰티유투브의 컨텐츠 역시 달라졌었다. 코로나 초기에는 뷰티유투브의 키워드가 '마스크에 묻지 않는', '마스크 써도 촉촉한', '매트', '지속력 높은' 등이 키워드였다. 즉 코로나 초반에는 마스크를 쓰고도 완벽한 메이크업을 유지하기 위한 팁들이 주로 공유 되었다. 하지만 코로나 상황이 장기화 되면서 점차 '파운데이션 프리'라는 키워드가 부상하기 시작하였다. 이처럼 초반에는 마스크와 화장을 공존하려는 노력이 많이 보였으나 점차 불편함을 느끼고, 화장의 필요성을 전보다 느끼지 못함으로써 뷰티 시장에 대한 소비가 감소한 것으로 보여진다.

결론

포스트 코로나 시대의 keyword : ① 집 ② Untact(재택근무) ③ 외부활동욕구
: 개인공간이 유지되는 야외 산업이 Untact시대에 유망할 것으로 보임.

...라고 그때 당시 결론을 내렸었다.
외부활동욕구는 지금와서 보니 무슨 근거인지 잘 모르겠어서 본 포스팅에선 제외했다...^^
첫 분석 프로젝트였던 만큼 부족한 점이 많이 보이지만 해당 프로젝트를 돌아보면서 당시 데이터로 분석하여 얻은 인사이트가 뉴스기사 같은 곳에 비슷한 내용이 나오면 흥미로웠던 경험이 떠올랐다. 덕분에 다시금 데이터 분석 공부를 불태우고 싶단 생각이 들었다.

끝!

해당 프로젝트 분석 정리 원본
https://drive.google.com/file/d/1J7t7alsWiKEk1EaUTccCVb_gI1OJG3pL/view?usp=sharing

다 썼는데 저장 안해서 한번 날리니까 정말 쓰기 싫더라... 저장을 습관화 하자...

profile
노는게 제일 좋아

0개의 댓글