# parallel training

1개의 포스트
post-thumbnail

Multi GPU Training Scaling Strategy

Introduction Multi GPU 를 활용하여 딥러닝 모델의 분산 학습을 수행하는 경우, Scaling 과 관련된 용어가 보일 때가 있습니다. Weak Scaling 과 Strong Scaling 이 그것인데, 두 가지 개념이 헷갈리는 경우가 있어 정리해 둡니다. 두 방법은 Single GPU 에서의 실험과 비교하는 상황에서, batchsize 를 어떻게 조정할 것인가에 대한 방법입니다. Weak Scaling 1개의 worker 가 가지는 batchsize 를 고정하는 것 worker 의 개수를 증가시켰을 때, 전체 분산 처리 속도를 보게 된다. 1-GPU : 128batch 2-GPU : 128batch x 2 = 256batch 4-GPU : 128batch x 4 = 512batch 8-GPU : 128batch x 8 = 1024batch ... 그러므로 GPU 의 개수가 많아질 수록, 전체 batchsize 가 커지게 되고 이에 따라서 GPU 의

2021년 9월 8일
·
0개의 댓글
·