V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  zizon  ›  全部回复第 1 页 / 共 22 页
回复总数  424
1  2  3  4  5  6  7  8  9  10 ... 22  
李飞飞没搞定的世界模型让 PO 主实现了.
卖给游戏公司起步一个小目标吧.
deepseek v4 flash 够用的情况下还不是有人挤破头上 opus 4.8
11 天前
回复了 intoext 创建的主题 中文 为我的无知感到羞愧
其实你只要想想就明白.
只有人数和能力到一定程度了才会有显著的反华运动.

任何一个不达标都是静悄悄消失的.

另外那个帖子对中文也是有很多谬误和想当然.

国外游戏官方支持中文才几年,这边自己开始声称中文不代表中国了.

国外对中文的什么态度,电影里有说.
甚至你去新加坡这个号称华人多数的国家也清楚知道中文到底属于什么地位.
更别说那些抱着润想法脱离母国关系的,能对中文有什么好感了.

说白了,国外软件有原生中文支持/语言模型能输出中文还是就是靠宏大叙事的国力支撑的.
11 天前
回复了 dys0327 创建的主题 git 有一个 git 仓库合并问题,不知道怎么办才好
仓库 B 叠个改名的 commit 然后 rebase 到 A?
11 天前
回复了 superJava 创建的主题 问与答 张雪机车真的被针对了吗
赢几场场是新手保护期,输一场就是均值回归.
谁都有屁股,怎么选就是另外的问题了.

所以,规则上有没有没针对不好说,舆论上有没有就难说了.
投喂是因为有流量有话题能出片.
你想个反投喂也能出流量能发朋友圈的就行.
你多看 DeepSeek 的 CoT.它对 reasoning 有些过于细节.
很多你表述上略模糊的点它都要评审推导.

比如 把小函数 inline 了.
它会对那些调用多次的小函数反复思考要不要 inline.
一边是强调用户的遵从字面意思(指令强跟随),一方面又再考虑结合工程实现想用户的真实意图(指令意图展开).
@iqoo 既然你说 n 这个强度值是可替换的.
那么 n=0 应该也是等价的.

说明你也根本没有一个快捷算法能够算出来.
The key mathematical insight: the mod 100000 sequence must repeat within ≤100001 steps (only 10⁵ possible values). Found cycle starting at step 248, length 14. Then:

n = 10¹⁴ → idx = 248 + (10¹⁴ − 248) mod 14 = 254
Only 254 iterations needed instead of 10¹⁴
Answer: x99826


deepseek v4 flash ~ 23min
126,935 (126,656 prompt tokens + 279 completion tokens)
你这个问题就像问为什么 1926 年的国人为什么还马拉车而不是汽车.
数据出境方面可能也有合规问题.
你再想想这是不是国庆想跟你回老家的意思.
说明不了什么.小米有个玄武芯片,事件又涉及车.
4 月 16 日
回复了 waldentree 创建的主题 程序员 字节为啥不出个国内版 Vercel?
字节:你这个能产生什么价值
4 月 13 日
回复了 mengyaoren 创建的主题 生活 每天收到几个电话,说是从豆包搜索过来的
把豆包当搜索用,LLM 现编刚好撞上你的号码吧.
3 月 29 日
回复了 cpalead 创建的主题 DeepSeek 为什么 deepseek 的源代码只有几个文件?
1. generate.py 描述了数据/权重文件怎么加载的.
2. model.py,尤其 Transformer 类描述了模型结构/层等怎么构成的信息.
3. kernel.py 描述了 2 里用到的一些核心自定义算子.

给你 2+1 类似与给了头文件声明和.so 文件.

开源的是这个.h.

4. 更接近一些你理解的开源的是有些会提供 finetune.py,做微调的.
这个会告诉你一部分真实完整训练场景下,input/训练数据大概长什么样.
理论上,你有可能根据这个数据格式,去完整重新训练一个等价模型,前提是有对应的硬件资源.

但,通常来说 fintune.py 暴露的信息是不够的.
之所以叫微调,也就是因为它只是一部分 input 长这样.

你可以看看 olmo 的 train.py,比较符合你的对开源的想法.
属于一个端到端,理论上你有硬件条件就可以从 repo 完整复刻的开源形态.
https://github.com/allenai/OLMo/blob/main/scripts/train.py

你说 1/2/4 够不够.
也不能说不够吧.

但 pretrain 的 datasource 直觉上还是很影响跟模型交互的语言/prompt 风格的.
因为国内不允许开除孕产哺乳期员工.
所有有了钻这个漏洞的人.
反过来企业会对孕产哺乳期员工增加额外道德风险成本.
容器或者某种 sandbox 隔离的 network namespace 里的进程发起的吧.
1  2  3  4  5  6  7  8  9  10 ... 22  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   845 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 20:36 · PVG 04:36 · LAX 13:36 · JFK 16:36
♥ Do have faith in what you're doing.