1
zuoyouTU 320 天前
如果目标页面格式清楚,用 selenium 或者 pytesseract 简单定制一下应该可以
前者拿明文后者用 ocr 拿其他的 |
2
zqjilove 320 天前
gen 。github 、v2 里搜索一下,好像还是 v 友开发的。
|
3
wbrobot 320 天前
国外好用的都是收费 API
国内以前有一个,后来没有了 开源的需要自己改的东西太多了,以后有基于 AI 的可能会好很多 |
6
rizon OP 我本以为正文提取的库挺多的,结果查了一下发现,这条路好像还没有趟的很好啊。目前看到一个最简单的方法就是基于标签的密度。
|
7
FrankAdler 320 天前
|
9
itskingname 320 天前
|
10
DTCPSS 320 天前 1
Mozilla 的 Readability
https://github.com/mozilla/readability |
11
rizon OP @FrankAdler #7 对对对,就是这个思路,那些各类网页阅读器的思路。我试试这个如何
|
13
oaa 320 天前 2
1 ) Readability ,https://github.com/mozilla/readability ,是一种基于规则的方法,被 Mozilla Firefox 浏览器的阅读模式使用,它通过检查 HTML 元素的标签名称、文本数量、链接密度以及满足主要内容标准的文本模式来提取主要内容
2 ) DOM Distiller ,https://github.com/chromium/dom-distiller ,是 Google Chrome 浏览器的阅读模式,它是一种混合方法,使用了 Boilerpipe 分类器和一些规则,有点类似于 Readability 3 ) Web2Text ,https://github.com/dalab/web2text ,是基于深度神经网络的分类器,使用了 CNN 模型和包括单词计数、标点符号存在和停用词数量等 128 个结构和文本特征来确定每个文本块是否属于主要内容 4 ) Boilernet ,https://github.com/mrjleo/boilernet ,是基于深度神经网络的分类器,使用 LSTM 将网页的文本节点视为由单词和 DOM 树根路径组成的文本块序列 好像还有个啥论文。。 via https://twitter.com/Barret_China/status/1729889136520335606?s=20 |
14
Immortal 320 天前
rod
|
15
chingyat 320 天前
1. Mozilla 的 readability https://github.com/mozilla/readability
2. Postlight/parser https://github.com/postlight/parser |
16
dyllen 320 天前
之前不记得哪里看的,哪些聚合网站好像是有用的密度分析方法做的。
|
17
zqjilove 320 天前
目前最靠谱的就是用 gpt
|