V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
douglas1997
V2EX  ›  问与答

PyTorch 中的 DataParallel 和 DistributeDataParallel 疑问

  •  
  •   douglas1997 · 2019-11-22 19:49:26 +08:00 · 1668 次点击
    这是一个创建于 1610 天前的主题,其中的信息可能已经有所发展或是发生改变。

    环境:单机(一个 Node ),4 块 GPU 卡

    PyTorch 在训练的时候有两种可选模式,第一种是 DataParallel ( DP )模式,第二种是 DistributeDataParallel ( DDP ),我在实测中发现:

    • 单卡能跑到 100%的情况下,DP 在 4 卡的时候加速比为~ 2
    • 单卡能跑到 100%的情况下,DDP 在 4 卡的时候加速比为~ 4

    我看了官方的文档:https://pytorch.org/tutorials/intermediate/ddp_tutorial.html

    我有几个问题:

    1. 有什么策略能够判断 DP 的情况下,单卡是绑定了一个进程还是说 4 卡绑定了一个进程呢?
    2. 公司精通 CUDA 底层的同事和我说,这两种模式本质上是等价的,那么这个说法是对的吗?如果是对的,为什么等价,如果不对,差异在哪里呢。
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1458 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:15 · PVG 01:15 · LAX 10:15 · JFK 13:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.