V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
johnny22
V2EX  ›  人工智能

如何看待陈天桥和季峰发布的这个“30B 跑出 1T 性能”的大模型?

  •  
  •   johnny22 · 13 天前 · 413 次点击

    腾讯新闻的一篇报道( https://news.qq.com/rain/a/20260106A03XDU00 ),说是陈天桥和季峰团队打响了 2026 大模型第一枪。

    文中的核心卖点是:30B 参数规模的模型跑出了 1T 参数的性能。里面提到了一些刷榜数据:

    • HLE-Text: 39.2%

    • BrowseComp: 69.8%

    • GAIA-Val-165: 80.8%

    说实话,看文章描述感觉挺玄学的,又是“交互内化进推理”,又是“用确定性对抗不确定性”。

    作为一个普通开发者,我想请教下站里的大佬:

    1.现在 30B 真的能通过架构优化或者推理侧的改进,跨两个量级去打 1T 的模型吗?

    2.文中提到的这些测试集(比如那个 HLE 人类终极测试)含金量如何?

    3.这种“做题家模式 vs 科学家模式”的提法,在实际落地场景中意义大吗?

    想听听大家的真实看法。我试了他们的官网产品 dr.miromind.ai ,除了速度比较慢,好像质量还挺高。

    2 条回复    2026-01-19 17:45:24 +08:00
    DABOBO
        1
    DABOBO  
       9 天前
    好用,我用的场景不多,但比 gemini pro 可是强多了。
    zhyf007
        2
    zhyf007  
       8 天前
    MiroThinker 1.5 的突破点不在于颠覆 Scaling Law ,而在聚焦“交互与推理”,在参数规模之外找到了新的效能提升路径。你试用时感觉“速度慢但质量高”,很可能是因为它在后台执行了多次搜索、比对和验证步骤,这是高质量输出的代价。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1320 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 23:57 · PVG 07:57 · LAX 15:57 · JFK 18:57
    ♥ Do have faith in what you're doing.