[EDA project] Olist 기업 온라인 거래 분석

주혜린·2023년 5월 26일
0

[EDA Project]

목록 보기
1/4

분석에 사용된 데이터

Brazilian E-Commerce Public Dataset by Olist의 데이터셋을 사용하여 파이썬 및 sql로 데이터 분석을 진행.

https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

[분석목적]

  • 판매율이 높은 상품 카테고리와 구매율이 높은 지역의 상관관계를 비교하여 구매율을 높이려면 어떤 전략을 짜야하는지 알아보고자 함.

Top 10, Low 10 상품 분석

-> order_items 테이블을 기준으로 products, product_translation 테이블을 결합.

[Top 10 상품 분석]

  • sql문으로 작성된 코드
SELECT
	product_category_name_translation.product_category_name_english,
    COUNT(order_items.product_id) AS order_product
FROM order_items
LEFT JOIN products
ON order_items.product_id = products.product_id
# 포루투갈어로 되어있는 상품명을 영어로 변환하는 작업
LEFT JOIN product_category_name_translation
ON products.product_category_name = product_category_name_translation.product_category_name
GROUP BY product_category_name_translation.product_category_name_english
ORDER BY order_product DESC
# 상위 10개의 상품만 출력
LIMIT 10
  • Top 10 Products Ordered Cart

[Low 10 상품 분석]

  • sql문으로 작성된 코드
SELECT
    product_category_name_translation.product_category_name_english,
    COUNT(order_items.product_id) AS order_product
FROM order_items
LEFT JOIN products
ON order_items.product_id = products.product_id
LEFT JOIN product_category_name_translation
ON products.product_category_name = product_category_name_translation.product_category_name
GROUP BY product_category_name_translation.product_category_name_english
ORDER BY order_product
# 하위 10개의 상품만 출력
LIMIT 10
  • Low 10 Products Ordered Cart


선호하는 결제 방식 분석

-> order_payments 데이터셋을 사용하여 분석

[가설]

  • 온라인 쇼핑몰 특성 상 카드결제 비율이 가장 높을 것이다.

[결제방식 순위 분석]

  • sql문으로 작성된 코드
SELECT 
payment_type,
COUNT(payment_type) AS num_order
FROM order_payments
GROUP BY payment_type
ORDER BY num_order DESC
  • Payments Types Chart

[Insight]

  • 가설과 같이 신용카드 결제가 1위로 가장 많았다.
    이때 생소한 boleto라는 결제수단이 2위를 차지한 것을 볼 수 있는데, 여기서 boleto란 브라질에서 많이 사용되는 현금 결제 수단으로 바코드, 결제 세부 정보 및 고객 정보가 포함된 인쇄 또는 가상 바우처이다.

Top 10, Low 10 주문 지역 분석

[가설]

  • GDP가 높은 지역일수록 구매율이 높을 것이다.

[Top 10 주문 지역 분석]

  • sql문으로 작성된 코드
SELECT
customer_state,
COUNT(customer_state) AS count_state
FROM customers
GROUP BY customer_state
ORDER BY count_state DESC
LIMIT 10
  • Top 10 Ordered State

[Low 10 주문 지역 분석]

  • sql문으로 작성된 코드
SELECT
customer_state,
COUNT(customer_state) AS count_state
FROM customers
GROUP BY customer_state
ORDER BY count_state 
LIMIT 10
  • Low 10 Ordered State

[Insight]

  • Top 10 ordered states의 지역 중 가장 구매율이 높은 세 지역 모두 실제로 브라질에서 GDP가 높은 지역이었으며, Low 10 ordered states의 하위 세 지역도 브라질에서 GDP가 낮은 지역이었다. 따라서 지역에 따른 구매율 차이가 지역의 GDP 수준과 연관이 있음을 알 수 있다.
profile
💻🐜💡

0개의 댓글