V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  chenlide  ›  全部回复第 1 页 / 共 1 页
回复总数  2
gpt 的 prompt 肯定是不可能一次接收几十万字的。
他们把你说的几十万字篇文档分成了很多段,比如 1000 字一段。再把每一段经过 text2vec 文本嵌入算法把每一段转化为一个段落小向量(相当于把一段压缩成了向量来存储)。有个很新的东西叫向量数据库,就是存这些向量的。数据库是有查找功能的。
当用户提问时把用户的问题转化为小向量,把用户文本向量拿去和向量数据库的向量计算距离,做相似度匹配,找到距离最近的 K 个向量。取出 K 个向量对应的原文。
把 K 个向量的原文和用户的原问题组成一个 prompt 发给 gpt (字数相比直接接收几十万字少了很多),gpt 再回复
推荐搜一下 langchain
https://www.youtube.com/watch?v=Yv1HmTGU-So&t=603s
328 天前
回复了 insanny 创建的主题 OpenAI 访问 chatGpt3.5 提示 ChatGPT is at capacity right now
就是人太多了,早上用还好。这 3.5 到处都是,不必官网,上 poe 也行
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1697 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 16:43 · PVG 00:43 · LAX 09:43 · JFK 12:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.