另外再给大家补充推荐两个参考
它是一个 Python 工具包,它封装了上面提到的思路,实现了突破 4096 tokens 限制的功能。除此之外,它还有许多功能:
项目地址:https://github.com/jerryjliu/gpt_index
它是 OpenAI 官方提供的一系列实用的例子和指南,其中包括了各种场景和功能的演示和代码,让你轻松上手 OpenAI 的强大能力
1
rajesh941 2023-03-03 10:14:57 +08:00
本地有 100 篇文章,能让它学习下吗?
|
2
chuangbo OP @rajesh941 可以的,这个项目的思路相当于让 OpenAI “学习”了 60 万字的文章,成本只有 0.24 美元。
|
3
shuxiaokai 2023-03-03 11:49:56 +08:00
可以做智能客服,训练好数据集。
|
4
hanbing135 2023-03-03 11:59:38 +08:00
这个思路很猛啊
|
5
vToExer 2023-03-03 12:45:29 +08:00 via Android
这个思路看起来和 gptindex 相似,都是在外部存放一份数据供 chatgpt 读取使用,以突破 4096 的上下文限制
|
6
leimao 2023-03-03 12:53:24 +08:00 via iPhone 1
这个做法很早就有人做了,比如说 BERT 时期的 Universal Sentence Encoder ,可以用来做检索。
|
7
kongkongye 2023-03-03 13:23:16 +08:00
amazing!!!
|
9
mrgeneral 2023-03-03 13:46:55 +08:00 2
ChatGPT 官方提供了这个解决方案的,我上周刚研究完,主要是数据安全不太好解决。
官方提供的思路是:通过关键词对物料进行关联度匹配(官方给的例子是余弦算法),选择关联度高的来做 prompt 。 |
10
chuangbo OP |
12
xiabill 2023-03-04 20:57:13 +08:00
这个有人在实践了嘛
|
13
wodema 2023-03-05 11:22:14 +08:00
@xiabill 这个 chatpdf.com 处理 PDF 文件的方式应该就是这样的
|
14
chuangbo OP @wodema 感觉 ChatPDF 的功能,llama-index 已经实现了,包括提取 PDF 文字,创建索引和查询功能。
|
15
Ervin 2023-04-27 09:51:00 +08:00
embedding 模型有 8191 的 token 限制,我丢了一堆 pdf 进去,就报这个限制
|