What is Distributed Data Parallel(DDP)

JInwoo·2023년 5월 28일

Pytorch Distributed Study

목록 보기

2/4

이전 글에서 살펴본 대로 DistributedDataParallel(DDP)는 data parallel training을 가능하게 해준다. Data parallel training은 multi-GPU에서 겹치지 않는 data batch를 받아 학습이 진행되는 방식이다. Pytorch에서 DistributedSampler가 data batch가 겹치지 않게 device에 할당되도록 하는 역할을 한다. model은 모든 device에 복제되고, 각각의 device에서 gradient를 계산하고 model은 동기화 되어 학습이 진행된다. model의 동기화를 유지하기 위해 ring all-reduce algorithm을 사용한다.

Ring All-Reduce Algorithm

Synchronized Data-Parallelism

모델의 동기화를 유지한 채 data-paralle training을 위한 graident 연산은 다음과 같은 주요 단계를 거친다.

각 GPU에서 mini-batch를 받아 loss function에 대한 gradient를 계산
GPU간 통신을 통해 gradient들에 대한 mean을 계산
model update

이때 gradient의 mean을 계산하기 위한 알고리즘으로 All-Reduce algorithm을 사용한다.

Algorithms of All-Reduce

All-Reduce algorithm은 모든 proeccess의 array를 하나의 array로 만들어(reduce) 모든 process에 만들어진 array를 반환하는 알고리즘이다.

$P$ 를 전체 procees의 수라고 하고 $N$ 을 각 process의 array length, $A_{p,i}$ 를 $p$ procees의 $i$ 번 째 element라고 할때, result array $B$ 의 $i$ 번 째 element $B_i$ 는 다음과 같다.

$B_i=A_{1,i}\ Op\ A_{2,i}\ Op\ \cdots\ Op\ A_{p,i}$

이때 $Op$ 는 binary operation으로 deep learning에서는 주로 SUM 연산을 사용한다.

다음은 $P$ 가 4이고 $N$ 이 4일 때의 예시 사진이다.

Ring All-Reduce

위에서 본 process를 하나의 ring으로 구성하면 다음과 같이 표시할 수 있다.

먼저 각각의 process 내 array를 subarray로 나눈다. 나누어진 subarray를 chunk라고 부르고 chunk[p]는 p번 째 chunk를 의미한다. 각 process의 chunk[p]를 다음 process로 보내고, 이전 process로 부터 chunk[p-1]를 받는다.