오늘은 CLIC2025
대회 준비를 위해 허깅페이스에서 대용량 데이터셋을 다운받아야합니다.
우선 데이터셋 받을 레포는 아래 URL입니다.
다운을 위해서는 우선 huggingface_hub
라는 라이브러리가 필요합니다.
pip install huggingface_hub
from huggingface_hub import snapshot_download
# 데이터셋 전체 다운로드
snapshot_download(
repo_id="Whiteboat/MLIC-Train-100K", # 레포 id
repo_type="dataset",
local_dir="./MLIC-Train-100K", # 다운로드될 폴더 경로
local_dir_use_symlinks=False
cache_dir="./cache", # 캐시 디렉토리
token="hf_XXXXXXXXXXXXXX", # Hugging Face access 토큰
)
해당 코드를 실행하게 되면
이렇게 파일들이 내 로컬 환경에 다운로드 됩니다.
다음 글은 이제 저 .7z
라는 압축파일을 풀기위한 삽질기록들을 정리해보겠습니다..