H&M_data_load

매일 공부(ML)·2022년 4월 29일
0

캐글 필사

목록 보기
33/34

캐글 대회 H&M Personalized Fashion Recommendations

목표: 훈련 데이터의 기간이 끝난 후 7일 동안 고객의 구매를 예측하는 것입니다.

NOTE: 7일 동안 구매를 진행하지 않는 고객은 스코어를 초과한 상태일 것입니다.

패션 취향을 추천하는 대회입니다.

그래서 그런지, 데이터의 구성도 특이하고 재미있씁니다.

articles.csv: detailed metadata for each article_id available for purchase(구매관련 데이터 내용을 설명해주는 세부적인 메타 데이터)

customers.csv - metadata for each customer_id in dataset (데이터 셋에서 고객 아이드를 의미하는 메타 데이터)

transactions.csv - 훈련 데이터로 각 고객의 구매 모ㅗㄱ록과 매친이 되어있습니다. 중복된 행들은 같은 아이템을 여러 개 구매했다는 것을 의미합니다.

훈련 데이터 기간이 지난 7일 후에 고객의 구매를 예측할 수 있나입니다(article_id)

sample_submission.csv - customer_id 값의 예측을 만듭니다. 그리고 테스트 기간에 구매를 진행한 모든 고객들의 스코어를 훈련 데이터의 구매 이력에 근거하여 예측합니다 .


메타 데이터

데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터로 대량의 정보 가운데에서 찾고 있눈 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이입니다.

어떤 데이터 즉 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 말한다고 이해하면 될 것 같습니다.


import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from tqdm.notebook import tqdm #iterable의 상태 진행율 파악, 필요 이유 정리
articles = pd.read_csv("../Downloads/h_m/articles.csv")
customers = pd.read_csv("../Downloads/h_m/customers.csv")
transactions = pd.read_csv("../Downloads/h_m/transactions_train.csv")
profile
성장을 도울 아카이빙 블로그

0개의 댓글