[arcface_torch]关于多卡并行的问题 #2559

supertx · 2024-04-12T09:13:59Z

DDP为了实现多级多卡的并行，但是作者代码里似乎将模型的duplicate。数据在多GPU上的scatter，正向传播和反向传播的数据reduce，gather操作都手工实现了，那么将骨干网络包裹在DDP的作用是什么，并且使用DDP包裹主干网络时将device_ids设置的时单卡，这似乎是包裹主干网络的DDP无法发挥作用。
代码：

backbone = torch.nn.parallel.DistributedDataParallel(
        module=backbone, broadcast_buffers=False, device_ids=[local_rank], bucket_cap_mb=16,
        find_unused_parameters=True)

我将这几行注释掉似乎也不影响代码的运行，能解释一下任用ddp的作用吗，以及会不会对模型训练的速度有一定的影响

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[arcface_torch]关于多卡并行的问题 #2559

[arcface_torch]关于多卡并行的问题 #2559

supertx commented Apr 12, 2024 •

edited

[arcface_torch]关于多卡并行的问题 #2559

[arcface_torch]关于多卡并行的问题 #2559

Comments

supertx commented Apr 12, 2024 • edited

supertx commented Apr 12, 2024 •

edited