V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ztfot
V2EX  ›  程序员

有没有用自然语言进行文档内内容搜索的工具?

  •  
  •   ztfot · 112 天前 · 1282 次点击
    这是一个创建于 112 天前的主题,其中的信息可能已经有所发展或是发生改变。

    理想的搜索过程: 打开搜索框( Mac 的 Spotlight) -> 输入一句话 -> 根据语意自动搜索到最相关的几个文档 -> 打开文档跳转到某一页

    • 看到 OpenAI 的 text-embeddings 和向量知识数据库就想
    • 有没有一种搜索工具可以直接用语意进行搜索 而不是死板的关键字匹配
    • 输入模糊关键字(甚至是一句话)可以直接匹配到对应含义的代码块,项目,或者文档
    • 文档哪输入模糊关键字或者句子可以直接定位到具体的某一页 PDF
    • 有这个想法其实可以自己写一个,最好是以插件的形式嵌入某些 PDF 阅读器内,自己写一个 PDF 阅读器太费劲了
    • Apple Intelligence 和微软为什么不做这种功能呢? 感觉现在单纯的 AI 问文档内容,不如说我要找到那段内容我自己看一下, 有时候就是不熟悉的说明书太长懒得找(比如嵌入式的说明书)
    12 条回复    2024-07-26 11:28:15 +08:00
    shrugginG
        1
    shrugginG  
       112 天前
    好想法,码住回来看
    Pteromyini
        2
    Pteromyini  
       112 天前
    emmm 其实这是 RAG 的基本步骤,根据词向量检索相似度,fastgpt ,dify 之类的都能实现
    xkongstore
        3
    xkongstore  
       112 天前
    Locus 这个插件
    Inn0Vat10n
        4
    Inn0Vat10n  
       111 天前
    现在的百度、Facebook 、Google 之类的搜索引擎背后都是带语义检索的啊,这块业界很成熟了,主要还是向量化搜索的方式去做的
    beyondex
        5
    beyondex  
       111 天前
    sea desktop search 的 AI 版本可。就是对文本 embedding 索引,然后向量搜索。同时支持传统分词搜索。
    不过由于没用 gpu 加速 embeddding 索引生成过程很慢,搜索挺快。
    beyondex
        6
    beyondex  
       111 天前
    不过是给你相关文件&提供高亮预览的,不是你指定一个文件,然后针对他搜索的。
    googlefans
        7
    googlefans  
       111 天前
    这需求估计以后会集成到系统里
    ztfot
        8
    ztfot  
    OP
       111 天前
    @beyondex 这个怎么看起来这么原始呢
    ztfot
        9
    ztfot  
    OP
       111 天前
    text-embedding 都已经出来这么久了,不知道为什么 Github 上没有人做这个,直接集成在系统中的
    hez2010
        10
    hez2010  
       111 天前
    微软其实有这个功能,但是只是企业版限定。当你有 Microsoft 365 企业授权之后,在 Bing 登录你的工作账号之后就能用搜索了。它会直接集成你们整个企业的内容进行索引,所以直接就能搜出任何内部资料,并且还会根据每个人的权限不同过滤展示不同的搜索结果,问 Copilot for Microsoft 365 问题也是直接从你们企业资料作为数据来源结合搜索一起出结果。
    feiyan35488
        11
    feiyan35488  
       111 天前
    RAG , 会返回引用文档和引用片段,加上点击定位就可以了
    109021017
        12
    109021017  
       111 天前
    Google 的 Gemini 可以用自然语言搜索 Gmail, Google Docs, Google Sheets 中的内容.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3323 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:04 · PVG 20:04 · LAX 04:04 · JFK 07:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.