V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
SteadyHua
V2EX  ›  问与答

为什么网络上很少有文档结构化的资料,求文档结构化配置经验分享

  •  
  •   SteadyHua · 2022-09-23 15:03:38 +08:00 · 532 次点击
    这是一个创建于 580 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做文档结构化相关工作,各位大佬能分享下( Word/Excel/Pdf )文档结构化配置的经验或有什么类似的产品可以参考吗?

    4 条回复    2022-09-24 11:28:24 +08:00
    czfy
        1
    czfy  
       2022-09-23 15:13:07 +08:00
    不如你解释一下什么是 文档结构化
    SteadyHua
        2
    SteadyHua  
    OP
       2022-09-23 15:37:08 +08:00
    @czfy
    转自百科
    结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。

    结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。

    非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容( operationalcontent ):如合约、发票、书信与采购记录;部门内容( workgroupcontent ):如文书处理、电子表格、简报档案与电子邮件; Web 内容:如 HTML 与 XML 等格式的信息;多媒体内容( RichMediaContent ):如声音、影片、图形等。

    通俗的解释就是将非结构化数据结构化后入库,例如将 Word 解析成 HTML 展示,保存其中所需要结构为后续同类型 Word 批量解析,解析成结构化数据入库。
    czfy
        3
    czfy  
       2022-09-23 17:15:46 +08:00
    如果是这样的话,excel 本来就是结构化数据居多吧
    word/pdf 的场景我就不懂了,看其他人吧
    LiubaiQ
        4
    LiubaiQ  
       2022-09-24 11:28:24 +08:00
    如果是微软 office 系列,可以看下官方文档,之前我记得看到过有提供工具库,可以解析成结构化数据,貌似还有一个公司专门做文档解析为结构化数据的,提供网络 Api 和包(貌似是 java ),不过是收费的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3359 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:58 · PVG 19:58 · LAX 04:58 · JFK 07:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.