爬虫能不能做这个一个需求

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2990 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近，公司网站上发了关于各种技术培训的帖子（包括 IT 架构、 Hadoop 数据分析...），每个帖子对应一种技术培训，如果想参加某类技术培训，公司员工只需在对应帖子下留言“报名”即可(当然跟帖是要求实名制的，所以自然会留下小马甲)。由于帖子众多，报名人数也很多，因此，人工统计汇总会变得很繁杂，而且会存在遗漏的风险。

-----重点来了-----
那么，我在想能不能通过爬虫的形式，每天爬取帖子中留言“报名”的员工姓名及其对应的培训技术类别，然后入库，以便于查询和汇总

第 1 条附言 · 2016-10-27 21:05:08 +08:00

帖子的内容大概是酱紫的

第 2 条附言 · 2016-10-28 09:41:02 +08:00

昨晚在网上看了相关资料，总结了下具体的技术实现，还望各位 pythoner 不吝赐教

1 、爬虫怎么爬取要登陆的网站？ [开源爬虫都支持在爬取时指定 cookies ，模拟登陆主要是靠 cookies 。至于 cookies 怎么获取，不是爬虫管的事情。你可以手动获取、用 http 请求模拟登陆或者用模拟浏览器自动登陆获取 cookie 。]
2 、爬虫怎么抽取网页的信息？ [开源爬虫一般都会集成网页抽取工具。主要支持两种规范： CSS SELECTOR 和
XPATH 。]
3 、爬虫怎么保存网页的信息？ [有一些爬虫，自带一个模块负责持久化。比如 webmagic ，有一个模块叫 pipeline 。通过简单地配置，可以将爬虫抽取到的信息，持久化到文件、数据库等。还有一些爬虫，并没有直接给用户提供数据持久化的模块。比如 crawler4j 和 webcollector 。让用户自己在网页处理模块中添加提交数据库的操作。]

帖子

培训

对应

报名

13 条回复 • 2016-10-28 16:17:00 +08:00