V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
threebr
V2EX  ›  问与答

计算单精度和半精度浮点数的矩阵运算时, GPU 相比 CPU 是否有数量级的领先?

  •  
  •   threebr · 2020-08-07 15:16:28 +08:00 · 1515 次点击
    这是一个创建于 1330 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大量的低阶矩阵和向量的乘法运算,形式均为[N×N]×[N×1],也就是 N 维矩阵乘 N 维向量,N 的大小在几十到几百。运算次数在亿的量级。

    对计算精度要求很低,半精度浮点数甚至 int16/int8 都可以。不需要保存一些中间结果,所以需要的内存不多。

    现在我用的 12 核 3900x 跑并行计算,但需要几个小时的时间,如果换成 RTX2070 这样的显卡或者 Cloud TPU 这样的云服务能不能在数量级上缩短时间?
    5 条回复    2020-08-07 17:12:40 +08:00
    wutiantong
        1
    wutiantong  
       2020-08-07 15:18:23 +08:00
    一次性任务么?几个小时就跑完这完全能忍啊
    threebr
        2
    threebr  
    OP
       2020-08-07 15:22:06 +08:00
    @wutiantong 不是一次性的,算半个炼丹吧,效果不好就还要继续
    lloovve
        3
    lloovve  
       2020-08-07 16:17:50 +08:00 via iPhone
    3900 5t 显卡 7t 没啥区别
    thedrwu
        4
    thedrwu  
       2020-08-07 16:29:40 +08:00 via Android   ❤️ 1
    对于相乘本身来说,是。但如果有其他中间步骤另当别论。
    不同尺寸和硬件的 GEMM 算法的优化也能造成很大的区别。
    threebr
        5
    threebr  
    OP
       2020-08-07 17:12:40 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2832 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:53 · PVG 22:53 · LAX 07:53 · JFK 10:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.