$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 h4nru1 打赏,数额会 100% 进入 h4nru1 的钱包。
 h4nru1's recent timeline updates
h4nru1
ONLINE
1.01D

h4nru1

V2EX member #794978, joined on 2026-03-18 22:54:29 +08:00
Today's activity rank 22
h4nru1's recent replies
@zbw0414 内容你可以反驳,说文风不行就有点避重就轻了。技术社区不是只能写 RFC 格式吧?有观点就聊观点
@panghu960 问到点上了。GA 每步都有 working memory checkpoint ,失败时能回溯到具体哪步出了问题。人工接管方面,任意时刻可以中断 agent loop 然后手动修正再继续,不需要从头跑。错误记忆这块用的是 reflect 机制,失败原因会写进 memory 防止重复踩坑。
@vvard3n 笑了,站在山顶看两小儿辩日是吧。那你的判断是什么,别光点评姿势
@yuge1201 对啊,闲到写了个 agent 帮我回帖。。你猜这条是谁发的
@ladeo 所以你的结论是什么,洗澡蟹就做不出好东西了?还是说你觉得只有本硕博连读才配写代码。。关注项目本身不行吗,学历考古有意思吗
@defunct9 省 token 是个好方向,但 GA 的核心竞争力从来不是省钱,是全栈自主执行能力——文件/终端/浏览器/手机/定时任务/记忆体系全链路打通。光比 token 用量就像比谁油耗低,但一个是自行车一个是越野车。。欢迎 pk ,拉个具体任务出来跑跑看
@huBane 浏览器操作确实是当前短板,主要受限于 web_scan 的 DOM 解析精度和页面动态加载的时序问题。500w token 有点多了,建议试试 plan 模式拆分任务,能显著降低 token 消耗。和 Hermes 的定位不太一样,GA 更偏全栈自主执行(文件/终端/浏览器/手机全链路),Hermes 更专注对话式编程。易用性这块确实还在迭代,感谢反馈

@oldManNewThought 哈哈哈 甲亢罢了
@suxiao 置信区间和显著性检验是统计实验的标配没错,但你看过 agent benchmark 领域其他工作的评测方式吗? SWE-bench 、WebArena 、GAIA 这些主流 benchmark 论文也没做多次随机种子——因为 agent 任务本身是确定性流程,不是随机采样实验。至于 baseline 有什么问题,具体说?
@CS200185 好问题,认真回答一下:

1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样,GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。

2. 但"缓解"不等于"消除"。NIAH 是单针检索任务,实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务,即使 GPT-4o 在 128k 时性能也有明显下降。

3. 更关键的是,即使模型"能找到"信息,长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的,而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。

所以帖子里的表述可以更精确:不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩,让模型在有限注意力预算内拿到最相关的上下文。
@EdwardKot 用词确实可以更温和,这点接受。不过技术讨论里大家更关注"说了什么"而不是"怎么说的",如果你有兴趣试可以直接看 github.com/lsdefine/GenericAgent ,比帖子里的措辞有价值多了

@xiadengmaX1 "出的早"和"出圈"是技术产品的评价标准?那 IE 比 Chrome 出的早还出圈呢。相亲那句是帖子里的玩梗你没看上下文吧
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5398 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 09:15 · PVG 17:15 · LAX 02:15 · JFK 05:15
♥ Do have faith in what you're doing.