V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐关注
Meteor
JSLint - a JavaScript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
JavaScript 权威指南第 5 版
Closure: The Definitive Guide
dcsuibian
V2EX  ›  JavaScript

JavaScript 爬虫方案有推荐的吗?

  •  
  •   dcsuibian · 49 天前 · 1437 次点击
    这是一个创建于 49 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在模仿一个别的网站练手,模拟数据比较困难,就想着爬点下来。(纯练手,非商业用途)

    之前用的 Scrapy,挺好用的,但是自己本身已经对 js 、ts 比较熟悉了,而且不太喜欢 python 。

    所以就想问问有么有什么 JavaScript 的替代方案之类的?比如相关的框架之类的?支持 ts 更好

    10 条回复    2021-10-19 16:00:01 +08:00
    veike
        1
    veike  
       49 天前 via Android
    puppeteer ?
    gavingeng
        2
    gavingeng  
       49 天前
    微软的 playwright,团队就是原先的 puppeteer,于 2019 跳到 ms
    unclemcz
        3
    unclemcz  
       49 天前
    crawler
    rust
        4
    rust  
       49 天前
    直接走 CDP 协议
    mxT52CRuqR6o5
        5
    mxT52CRuqR6o5  
       49 天前
    (axios/got/其他 http 请求库)+cheerio
    puppeteer/playwright
    ypzhou
        6
    ypzhou  
       49 天前
    puppeteer
    gam2046
        7
    gam2046  
       49 天前   ❤️ 4
    不知当讲不当讲,cloudflare workers 去爬其他用了 cf 的网站,直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。
    zhuzongxing
        8
    zhuzongxing  
       49 天前
    我是用的比较土的方法,axios 加 cheerio
    xiangyuecn
        9
    xiangyuecn  
       49 天前
    直接用 XMLHttpRequest 快的一逼,手撸。。,,,主要是因为别的工具也不会,写其他代码没有 js 简单😂
    dcsuibian
        10
    dcsuibian  
    OP
       49 天前
    感谢各位的回复
    自己也去调研了下,目前我的观点是靠 axios 、cheerio,以后可能会用 playwright
    axios 用过很多次了,cheerio 处理 dom 。
    puppeteer 、playwright 拓宽了我的知识面,非常有兴趣但暂时用不到(目前只抓静态页面)。以后要用的话倾向于 playwright,主要看中跨平台和微软出品( TypeScript )
    node-crawler 听人说似乎停止维护了。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1151 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 22:58 · PVG 06:58 · LAX 14:58 · JFK 17:58
    ♥ Do have faith in what you're doing.