V2EX › chenlide 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

219 天前

回复了 Trinityuan 创建的主题 › OpenAI › 请问 docsGPT 这类文档帮助阅读类应用是如何实现全文准确总结的？

gpt 的 prompt 肯定是不可能一次接收几十万字的。
他们把你说的几十万字篇文档分成了很多段，比如 1000 字一段。再把每一段经过 text2vec 文本嵌入算法把每一段转化为一个段落小向量（相当于把一段压缩成了向量来存储）。有个很新的东西叫向量数据库，就是存这些向量的。数据库是有查找功能的。
当用户提问时把用户的问题转化为小向量，把用户文本向量拿去和向量数据库的向量计算距离，做相似度匹配，找到距离最近的 K 个向量。取出 K 个向量对应的原文。
把 K 个向量的原文和用户的原问题组成一个 prompt 发给 gpt （字数相比直接接收几十万字少了很多），gpt 再回复
推荐搜一下 langchain
https://www.youtube.com/watch?v=Yv1HmTGU-So&t=603s

328 天前

回复了 insanny 创建的主题 › OpenAI › 访问 chatGpt3.5 提示 ChatGPT is at capacity right now

就是人太多了，早上用还好。这 3.5 到处都是，不必官网，上 poe 也行