PyTorch 中的 DataParallel 和 DistributeDataParallel 疑问 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

V2EX 提问指南

这是一个创建于 1610 天前的主题，其中的信息可能已经有所发展或是发生改变。

环境：单机（一个 Node ），4 块 GPU 卡

PyTorch 在训练的时候有两种可选模式，第一种是 DataParallel （ DP ）模式，第二种是 DistributeDataParallel （ DDP ），我在实测中发现：

单卡能跑到 100%的情况下，DP 在 4 卡的时候加速比为～ 2
单卡能跑到 100%的情况下，DDP 在 4 卡的时候加速比为～ 4

我看了官方的文档：https://pytorch.org/tutorials/intermediate/ddp_tutorial.html

我有几个问题：

有什么策略能够判断 DP 的情况下，单卡是绑定了一个进程还是说 4 卡绑定了一个进程呢？
公司精通 CUDA 底层的同事和我说，这两种模式本质上是等价的，那么这个说法是对的吗？如果是对的，为什么等价，如果不对，差异在哪里呢。

目前尚无回复

单卡等价 ddp pytorch

关于 · 帮助文档 · 博客 · API · FAQ · 我们的愿景 · 实用小工具 · 1458 人在线 最高记录 6543 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 26ms · UTC 17:15 · PVG 01:15 · LAX 10:15 · JFK 13:15
Developed with CodeLauncher
♥ Do have faith in what you're doing.