如果把手机芯片功耗拉满到 450W，上台式机的水冷散热，会怎么样？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

目前主流芯片骁龙 8 Gen3 的 GPU 跑分，差不多和 1060 持平，浮点计算数据是 5201 GFLOPS in FP32(wiki 数据)，而功耗仅仅只有 6~10W 。

我看 4090 的功耗是 450W ，wiki 上算力是 73,073 GFlops

把 10W 拉到 450W ，就是 45 倍。理论上 5201 × 45 = 234,045 GFlops ，比 4090 要强太多，能抵上三台 4090 了。

也许高通以后可以改行卖骁龙显卡？

19 条回复 • 2024-05-25 14:31:52 +08:00

tool2dx

31 天前

这点在 CPU 领域不成立，CPU 大部分程序是单线程，没办法通过并向切分任务，来提升总体算力。

但 GPU 可以，你可以把一个巨幅画面切成 45 块，每一块单独用一台骁龙 8 Gen3 去渲染，最后把画面实时拼起来，就是算力叠加了。

DTCPSS

31 天前

高通前几天刚发了新的 PC 芯片，性能和 M3 有来有回。

DTCPSS

31 天前

玩博德之门 3 可以跑 30 帧。

wy315700

31 天前

功耗和性能不是成正比的啊

lxh1983

31 天前

你是可以做老板的。比如生孩子需要十个月，给十个人一个月就能生出来了

idealhs

31 天前

谁跟你说吃得越多就能干的越多的，猪八戒吗

tool2dx

31 天前

@DTCPSS

NV 很鸡贼，4090 有 128 并行处理器(SM Count)，每一个并行处理器又有 128 个 Cuda 核。总共是 128*128 = 16384 个 Cuda 个数。

但是骁龙 8 Gen3 ，GPU 一共才两个 Execution units ，跑起来完全不是 4090 的对手。

相当于 128 个人，打两个人。

sentinelK

31 天前

有一些场景能大概对应一下你的假设。

1 、AYANEO Pocket S 是一个安卓掌机，用的芯片是骁龙 G3x gen2 ，配合主动散热功率能到 15 瓦。
2 、高通发布了骁龙 X Elite 核心，TDP 80 瓦。

btw：功耗与性能之间不是线性增长的，否则能耗比曲线的意义在哪里。

tool2dx

31 天前

@sentinelK 感觉这里有个 BUG ，能耗比曲线一般都是 CPU 和 GPU 一起测的。

但是我看 NV 的架构，就是尽可能塞进多的 Cuda 核心，加大功率，把他们喂饱，就能卖力干活。

3090 Ti 是 84 个并行处理器, 4090 是 128 个，他们功耗都是 450W ，是一模一样的，单纯就是人多力量大。

Jirajine

31 天前

要不你整 45 台 10W 的设备组集群，是不是就能当 4090 用了？

tool2dx

31 天前

@Jirajine 单纯的分布式计算，应该就是这样设计的吧。

也许挖矿比 4090 效率高，就是现在骁龙 8 Gen3 价格很贵，还不能集群玩游戏。

sentinelK

31 天前

@tool2dx
1 、因为手机芯片是 SOC ，又有 CPU 的串行计算能力，又有显示芯片的并行计算能力。所以合在一起计算并没有问题。
2 、功率不是你想堆就能堆的。TDP 是芯片设计架构决定的。然而芯片设计架构并不是简单的单元级别的复制粘贴。过去有个贬义词，叫“胶水核”。形容的就是这种行为。

这也就引出了你说的“喂饱”论。喂饱，一般指的是相同的芯片，是否运行在了保证稳定性的前提下的最大频率上。
不存在说给一个 TDP 10 瓦的芯片，喂饱 450 瓦的这种概念。

starrycat

31 天前 via Android

游戏 1 分钟，充电五小时？

sentinelK

31 天前

举个例子，你和姚明打篮球，你说你打不赢姚明，是因为你比姚明吃得少。这就很莫名其妙。

1 、你不可能和姚明吃的一样多，吃的一样多你得进医院。
2 、即便你硬塞的和姚明一样多，姚明的身高优势依然存在。

linch97

31 天前

楼主可以去 socpk.com 看看手机的能效曲线，再看看 PC 的 CPU 和 GPU 的能效曲线，就知道为什么不可行了

ooolooo

31 天前

共享单车跑 80 码?

YukiHanaNo

31 天前

为何不拉到 4500w 呢，这样你就拥有了目前全球算力最强的显卡了，股价不得赶超苹果

Jirajine

31 天前

@tool2dx 分布式不是说你想随便横向扩容就能随便扩的。
多个核心/单元/节点之间的同步/协同/共享/通信都需要架构上的考虑。不是说你把 45 张 10W 的芯片堆到一起就能当 450W 的多核心计算单元了。多个节点之间的开销大于核心的算力的时候你越堆性能越差。
作为一个参考，记得几年前华为鲲鹏的 ARM 服务器几十上百个核心，单核主频也好几 G ，参数看起来非常强劲，然而实际跑起来编译个内核这种并行化非常高的场景，速度还没有 mbp 快。

Greendays

30 天前

从极客湾他们画的性能曲线来看，10w 以后的提升就已经很低了。20w 以后应该就几乎不会有提升了。
https://www.socpk.com/cpucurve/