请问各位一个豆包大模型 API 的使用问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 238 days ago, the information mentioned may be changed or developed.

实际需求是有多个文件(pdf/doc/xlsx/...) 需要给大模型后来提问

豆包官方给出的方案是 https://www.volcengine.com/docs/82379/1284852

但是经我测试下来和给一般用户使用的豆包( https://www.doubao.com/chat/)解析效果并不一致, 有些文件根本解析不出来, 会漏掉很多内容

我的想法是将文档中的文字全部都提出出来, 然后将文本传给 API 来处理, 不知道是否可行.

我想请问各位正确的/通用的方式是怎么样的呢?

大模型

文档处理

API使用

3 replies • 2025-09-12 10:22:00 +08:00

Solix

Sep 12, 2025

https://www.llamaindex.ai/
https://unstructured.io/

mythjava

Sep 12, 2025

@gaobh 我学习一下

hugowangnz

Sep 12, 2025

我也在做这方面的工作，实际做下来的话，最佳方案是使用 textin 的 API （略贵，大概￥ 50/1000 页，但是效果最好）对文件进行解析后，作为上下文提供给豆包 API 。如果要求没那么高的话，各大云厂商都有文件解析服务，会稍微便宜一点，如果要求再低一点的话，例如都是纯文字内容，那直接用开源包像 pymupdf 这些解析就可以了