V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dying4death
V2EX  ›  程序员

Pocket 这种稍后阅读是怎么实现的?内容方面

  •  
  •   dying4death · 2019-07-26 11:01:20 +08:00 · 1016 次点击
    这是一个创建于 1743 天前的主题,其中的信息可能已经有所发展或是发生改变。

    添加网页到 Pocket 后,从 pocket 内打开就不是原来的网页了,仅保留了主体内容,标题正文以及图片。样式也是 pocket 的样式。

    想问一下是怎么实现的,是获取到链接后爬取主要内容吗?怎么爬呢,爬取内容不是要分析 html 结构吗?不可能全部网站的结构都一样吧?

    求大佬给点思路

    justfly
        1
    justfly  
       2019-07-26 16:47:05 +08:00   ❤️ 1
    关键字: 正文提取算法
    dying4death
        2
    dying4death  
    OP
       2019-07-26 17:15:39 +08:00
    @justfly 牛逼了哥,就是这个,感谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2007 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:07 · PVG 09:07 · LAX 18:07 · JFK 21:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.