CC12M 데이터셋 사용해보기

ma-kjh·2024년 4월 23일
0

CC12M을 다운받으려면 일단 img2dataset library가 필요하다.

https://github.com/rom1504/img2dataset !!

wget https://storage.googleapis.com/conceptual_12m/cc12m.tsv

먼저 메타데이터셋을 받아주고,

Add the column names at the top of the file with sed -i '1s/^/url\tcaption\n/' cc12m.tsv

를 실행해서 file 앞에 이런걸 붙인다고 한다.

img2dataset --url_list cc12m.tsv --input_format "tsv"\ --url_col "url" --caption_col "caption" --output_format webdataset\ --output_folder cc12m --processes_count 16 --thread_count 64 --image_size 256\ --enable_wandb True

그 다음에 tar file로 저장할라면 이렇게 저장하면 된다.

630 sample/s : cc12m has a lot of large images so resizing makes cpu the bottleneck

  • total: 5h
  • output: 331GB

5시간이면 된다고 하는데, 나는 10시간 좀 넘게 걸렸다.

profile
거인의 어깨에 올라서서 더 넓은 세상을 바라보라 - 아이작 뉴턴

0개의 댓글