V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dynastysea
V2EX  ›  程序员

想开发一个 chrome 插件实现打开论坛指定板块的帖子列表,抓取其中指定的内容,单开新的窗口展现

  •  
  •   dynastysea · 2017-07-20 14:45:54 +08:00 · 1646 次点击
    这是一个创建于 2479 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请教 v2 的大神,这个有什么方式实现比较好,google 的扩展程序开发,用 js 方便些,但个人 js 实现比较弱,python 勉强,倾向于用 python 实现,这个可以吗,搜索了一下貌似没有比较好的方法,请大神些指点一下
    9 条回复    2017-07-21 11:18:13 +08:00
    Kokororin
        1
    Kokororin  
       2017-07-20 14:55:40 +08:00
    用 jQuery.ajax 请求指定网页,再用选择器抓取,这个应该没什么难度
    dynastysea
        2
    dynastysea  
    OP
       2017-07-20 15:41:39 +08:00
    @Kokororin 主要是爬取帖子列表里的每个帖子的内容,然后做聚合,这个也是用 jquery 可以实现吗
    mansur
        3
    mansur  
       2017-07-20 15:45:14 +08:00
    requests
    Kokororin
        4
    Kokororin  
       2017-07-20 15:48:40 +08:00
    @dynastysea 用 jq 最方便,chrome 扩展无视跨域,随便你怎么抓
    freeminder
        5
    freeminder  
       2017-07-20 15:53:49 +08:00
    拿 python request 下好内容自己拼一个 html 存在临时目录,然后 system 一个 open/start 这个 html 不就可以了吗?
    autoxbc
        6
    autoxbc  
       2017-07-20 19:33:48 +08:00
    原始的论坛页面有丰富的前端代码,抓取内容生成页面很可能无法继承必要的结构和功能。不如就在原始页面上,通过 ajax 获取列表中帖子的内容,过滤出一个定制版。

    粗略估计二十行代码就足够,不需要什么技巧。js 是 Web 的原语,实现功能事半功倍,这点其他语言比不了。
    dynastysea
        7
    dynastysea  
    OP
       2017-07-20 19:56:27 +08:00
    @autoxbc 这里还需要爬取每个帖子的内容,二十行搞不定把,而且 js 做爬虫也不是长项
    autoxbc
        8
    autoxbc  
       2017-07-20 20:15:48 +08:00
    @dynastysea 我说的够保守了,原来想说十行就够了。爬每个帖子,就是一行选择器加一个回调,没什么复杂的。当然如果做出的扩展要给别人用,那要有些外围代码。
    soulmine
        9
    soulmine  
       2017-07-21 11:18:13 +08:00
    @dynastysea js 抓取论坛帖子链接这种情况 直接用 for each 原生并发不比 python 还要写多进程 强么
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2231 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 05:45 · PVG 13:45 · LAX 22:45 · JFK 01:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.