V2EX › practicer 的所有回复 › 第 3 页 / 共 8 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8

❮

❯

2016-10-09 18:47:57 +08:00

回复了 practicer 创建的主题 › Python › Python 爬虫项目如何管理?

@brucedone 这个工具很灵活啊，谢谢了

2016-10-09 09:08:45 +08:00

回复了 practicer 创建的主题 › Python › Python 爬虫项目如何管理?

@wayslog 有相关的教程吗?谢谢

2016-10-09 09:08:03 +08:00

回复了 practicer 创建的主题 › Python › Python 爬虫项目如何管理?

@cphilo 能不能详细说明一下啊?

2016-10-08 19:12:03 +08:00

回复了 practicer 创建的主题 › Python › Python 爬虫项目如何管理?

@Patrick95 重新写不是挺慢的吗

2016-10-08 19:11:18 +08:00

回复了 practicer 创建的主题 › Python › Python 爬虫项目如何管理?

@wico77 看起来很有用，真的很感谢分享

2016-10-03 20:05:27 +08:00

回复了 omg21 创建的主题 › Python › 用 BS4 如何搜索文本内容，然后再取出其标签？

@omg21 不客气

2016-10-02 23:12:46 +08:00

回复了 omg21 创建的主题 › Python › 用 BS4 如何搜索文本内容，然后再取出其标签？

html = '''<p id="a1">新闻</p>
<p id="a2">娱乐</p>'''

bs = BeautifulSoup(html, 'html.parser')
theTag = bs.find(text='娱乐').find_parent()

2016-09-14 23:58:55 +08:00

回复了 redhatping 创建的主题 › Python › 爬虫爬到 90%的数据以后，超时了。。

seen = []
todo = []

1 将带爬的 url 全部添加到 todo
2 每爬过一个 url 时（或在 ConnectionError 抛出时）在循环体的末尾将 url 添加到 seen
3 再从 todo 删除这个 url

所以断了下次再从 todo 里接着爬就行了

2016-09-12 13:15:50 +08:00

回复了 wenxw1997 创建的主题 › Python › 模拟登录学校教务系统遇到的问题

如果实在搞不定登录的话,就用 selenium 大法吧,给公司刚写完一个 selenium+phantomjs 的爬虫,用来解决 ajax 网页加载和 304 的问题,楼主可以尝试一下

2016-08-26 22:54:42 +08:00

回复了 liqingcan 创建的主题 › Python › 一门语言不写都生了

转开发岗后每天都要想思路，要写，要调试，和以前的工作相比熟手快了 N 倍，天天用不熟都难，楼主加油

2016-08-22 13:21:07 +08:00

回复了 katyang 创建的主题 › Python › selenium 不能加 headers，那该怎么办?

正在写 phantomJS + header ：
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap['phantomjs.page.settings.userAgent'] = 'Mozilla/5.0'
driver = webdriver.PhantomJS('path/to/PhantomJS', desired_capabilities=dcap)
driver.get(<your_url>)

虽然加了 header 信息，但最后发现不加 header 目标网站也让我爬

2016-08-10 13:01:08 +08:00

回复了 Tenxcloud10 创建的主题 › 云计算 › Dashboard - Kubernetes 的全功能 Web 界面

@yuankui materializecss 和这个模板有点类似

2016-08-05 09:52:35 +08:00

回复了 yukyuk 创建的主题 › 广州 › 有没广州程序媛合租呀

我推荐金沙洲

2016-07-27 22:04:43 +08:00

回复了 t2doo 创建的主题 › 晒晒更健康 › 晒一晒你们都买了多少本编程的书，看看谁最多

@henneko PC 上看， 23 寸左右分开，右边 pdf 左边解释器或 ide ，一边刷一边敲速度比看纸质书快，看纸质书心里负担好重

2016-07-27 11:45:02 +08:00

回复了 t2doo 创建的主题 › 晒晒更健康 › 晒一晒你们都买了多少本编程的书，看看谁最多

最近八个月的书单
已读的：
[Python.for.Data.Analysis(2012.10)].Wes.McKinney.文字版.pdf
Dimitrios Kouzis-Loukas-Learning Scrapy-Packt Publishing (2016).pdf
FlaskWeb 开发：基于 Python 的 Web 应用开发实战.pdf
Introduction.to.Tornado.Michael.Dory.文字版.pdf
OReilly.Web.Scraping.with.Python.2015.6.pdf
Python 核心编程第二版.pdf
Python library.pdf
在读的：
(Natural.Language.Processing.with.Python).S.Bird&E.Klein&E.Loper.文字版.pdf
Python.Cookbook 3rd 2013.5 David.Beazley.文字版.pdf

2016-07-23 16:33:54 +08:00

回复了 a412739861 创建的主题 › Python › 请教正则匹配问题，同样的正则， BS4 中无法匹配， re 有效。

@a412739861 我的 py2.7 windows 环境下可行

2016-07-23 12:40:40 +08:00

回复了 a412739861 创建的主题 › Python › 请教正则匹配问题，同样的正则， BS4 中无法匹配， re 有效。

只匹配汉字的话：
soup.find_all('td', class_=re.compile(ur'bgwhite\st-[\u4e00-\u9fff]+'))
在 Unicode 编码中只匹配汉字。 4E00-9FFF 为中文字符编码区

2016-07-22 14:35:39 +08:00

回复了 fusae 创建的主题 › Python › [爬虫求助]像这种数据生成图片的怎么爬？

@davidlau
@fusae
@beibeijia
@JayaOcean
按你们 refer 的方法试了一下，验证码的问题用 pillow 解决解决了，那 iframe 里的内容怎么获取？找数据源还是 selenium+phantomJS 模拟鼠标事件？

1 2 3 4 5 6 7 8

❮

❯