[Hugging Face] 허깅페이스 데이터셋 다운로드 방법

es.Seong·2025년 4월 11일
0

오늘은 CLIC2025 대회 준비를 위해 허깅페이스에서 대용량 데이터셋을 다운받아야합니다.
우선 데이터셋 받을 레포는 아래 URL입니다.

https://huggingface.co/datasets/Whiteboat/MLIC-Train-100K

다운을 위해서는 우선 huggingface_hub라는 라이브러리가 필요합니다.

pip install huggingface_hub
from huggingface_hub import snapshot_download

# 데이터셋 전체 다운로드
snapshot_download(
    repo_id="Whiteboat/MLIC-Train-100K", # 레포 id
    repo_type="dataset", 
    local_dir="./MLIC-Train-100K",  # 다운로드될 폴더 경로
    local_dir_use_symlinks=False  
    cache_dir="./cache",  # 캐시 디렉토리
    token="hf_XXXXXXXXXXXXXX",  # Hugging Face access 토큰
)

해당 코드를 실행하게 되면

이렇게 파일들이 내 로컬 환경에 다운로드 됩니다.

다음 글은 이제 저 .7z라는 압축파일을 풀기위한 삽질기록들을 정리해보겠습니다..

profile
Graduate student at Pusan National University, majoring in Artificial Intelligence

0개의 댓글