V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
firhome
V2EX  ›  Node.js

douban 的 www 域名 request 抓不到吗?

  •  
  •   firhome · 2014-04-29 14:26:20 +08:00 · 3014 次点击
    这是一个创建于 3865 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在cnodejs 上发过,没人回复,再到这里问下.


    看了很多例子都是拿douban做爬虫的例子..

    然后我也试试.

    发现
    request('http://movie.douban.com/') 有用

    request('http://www.douban.com/') 没用

    是什么原因呢?
    8 条回复    2014-04-29 18:04:29 +08:00
    khowarizmi
        1
    khowarizmi  
       2014-04-29 14:34:33 +08:00   ❤️ 1
    var request = require('request');
    request.get({
    url: 'http://www.douban.com',
    headers: {
    'User-Agent': 'request'
    }
    }, function(err, res, body){
    console.log(body)
    })
    rails3
        2
    rails3  
       2014-04-29 16:31:11 +08:00   ❤️ 1
    require 'net/http'
    Net::HTTP.get('www.douban.com','/')

    毫无鸭梨
    firhome
        3
    firhome  
    OP
       2014-04-29 17:06:37 +08:00
    @rails3 能说说为什么吗.
    firhome
        4
    firhome  
    OP
       2014-04-29 17:07:05 +08:00
    @khowarizmi 能告诉我为什么吗? www 的不行
    dorentus
        5
    dorentus  
       2014-04-29 17:12:01 +08:00
    @rails3 你这明明是 ruby 的代码……


    @firhome 什么叫「www 的不行」,有什么错误信息么?
    khowarizmi
        6
    khowarizmi  
       2014-04-29 17:23:13 +08:00   ❤️ 1
    @firhome 豆瓣认为你是爬虫,直接爬就403了呗 。加上user-agent,装成浏览器。。
    firhome
        7
    firhome  
    OP
       2014-04-29 17:56:22 +08:00
    @khowarizmi 感谢, 那么我以后怎么判断/分析 是这个原因呢?
    YouXia
        8
    YouXia  
       2014-04-29 18:04:29 +08:00
    @firhome 可以参考下HTTP协议的状态码。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3113 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:34 · PVG 21:34 · LAX 05:34 · JFK 08:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.