V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
leihongjiang
V2EX  ›  程序员

聚合多个的网站最新文章入库 然后自己索引可以搜索到 有什么办法能够实现吗.

  •  
  •   leihongjiang · 2020-06-15 16:00:27 +08:00 · 927 次点击
    这是一个创建于 1652 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前发布了两个主题

    聚合浏览网页的 PHP 源码或者软件有吗 www.v2ex.com/t/680814

    Python 爬虫 请教能实现我的这两点吗? www.v2ex.com/t/681172

    都不太理想.可能是我表达问题的方式不对.

    要求如下

    1-10 网站 自己写采集规则 采集到标题 跟链接 入库 方便自己索引

    采集到的 标题跟 url 按照抓取到的更新时间排序

    可以选择查看 1-10 某个网站所采集的全部文章(不需要内容 只需要标题 跟 url)

    应该 php 能够实现 我的需求.请指点学习方向

    Luoyuanlong
        1
    Luoyuanlong  
       2020-06-15 21:21:46 +08:00
    我之前做过 Java 论坛爬虫,多个论坛的信息抽取规则我将其分别写成一条类选择( document.select())语句,然后作为相应论坛的模板属性,爬取论坛的时候,使用 JEXL 执行此语句,得到执行结果,就是需要抽取的论坛信息。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2812 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 14:56 · PVG 22:56 · LAX 06:56 · JFK 09:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.