scrapy 这个爬虫框架有什么快速上手的方法么适合 Python 新手么

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2821 天前的主题，其中的信息可能已经有所发展或是发生改变。

装了个这个框架，WIN10 上花了我 1 个多小时真麻烦，晚上在研究。我有个疑问，如果抓取些比较简单的东西，会不会是脱裤子放屁了？再一个，phython 语法还么看完，php 也是搞下逻辑处理，调用，是不是很难上手？

上手

框架

Scrapy

Python

17 条回复 • 2017-08-05 10:31:32 +08:00

cdwyd

2017-08-03 20:41:06 +08:00 via Android

requests 能满足大多数个人需求

1nakaELYBbsXbZxY

2017-08-03 20:56:47 +08:00

既然用 php,那就用 php 自带 curl 就好啦

Hstar

2017-08-03 21:05:40 +08:00

赞同楼上意见, 用 requests 就好了. 如果你不知道一个东西有什么用, 那么说明你不需要它.

wellsc

2017-08-03 21:07:56 +08:00

这框架就是给新手用的

glouhao

2017-08-03 21:17:26 +08:00

你们众说纷纭我只是不知道哪个框架更好入手

lxml

2017-08-03 21:26:47 +08:00

scapy 是速度快，然后会自动处理容错等一系列特性，如果你只抓取很少很少信息的话，建议你去浏览器上用开发者工具获取到 curl。

然后去这个网站，直接把 curl 输入进去 https://curl.trillworks.com/#python，可以自动替你生成 Python 代码，把 cookie url header 什么都弄好了，你稍微再改改，加加循环什么的大概就能用了。

当然，如果你对 PHP 更熟悉的话，往下看，有选项也可以生成 PHP 的代码。

Ehco1996

2017-08-03 22:51:41 +08:00 via iPhone

我在知乎写了一个爬虫入门专栏
有那么三四篇文章是是说 scrapy 的基础用法的

有兴趣的话可以看看

http://zhuanlan.zhihu.com/Ehco-python

inflationaaron

2017-08-04 01:59:17 +08:00

scrapy 用了不少 Python 的高级特性，如果不了解的话很容易踩坑。先熟悉 requests 吧

OldPanda

2017-08-04 06:02:10 +08:00

官网提供了详细教程 https://docs.scrapy.org/en/latest/intro/tutorial.html

chengxiao

2017-08-04 07:08:20 +08:00

我之前也跟楼主状态差不多，scrapy 上手还是比较快的，只抓简单的网站就是熟悉下 xpath/css 选择器这些东西和 pipeline 处理流程还有就是数据库的存写就能抓很多网站了

slideclick

2017-08-04 07:31:33 +08:00

@lxml 牛

860670496

2017-08-04 08:52:17 +08:00

@wellsc #4 不能更同意
scrapy 比自己从头造轮子方便多了，就是要理解几个概念和他的工作流程，剩下的基本就是写 xpath 和改参数，好些 class 你自己 override 一下后写别的爬虫也能复用
真要出现了新手解决不了的问题，也有各种 middleware 给你折腾，比如换头换代理什么的