V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  practicer  ›  全部回复第 3 页 / 共 8 页
回复总数  149
1  2  3  4  5  6  7  8  
2016-10-09 18:47:57 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
@brucedone 这个工具很灵活啊,谢谢了
2016-10-09 09:08:45 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
@wayslog 有相关的教程吗?谢谢
2016-10-09 09:08:03 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
@cphilo 能不能详细说明一下啊?
2016-10-08 19:12:03 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
@Patrick95 重新写不是挺慢的吗
2016-10-08 19:11:18 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
@wico77 看起来很有用,真的很感谢分享
2016-10-03 20:05:27 +08:00
回复了 omg21 创建的主题 Python 用 BS4 如何搜索文本内容,然后再取出其标签?
@omg21 不客气
2016-10-02 23:12:46 +08:00
回复了 omg21 创建的主题 Python 用 BS4 如何搜索文本内容,然后再取出其标签?
html = '''<p id="a1">新闻</p>
<p id="a2">娱乐</p>'''

bs = BeautifulSoup(html, 'html.parser')
theTag = bs.find(text='娱乐').find_parent()
2016-09-14 23:58:55 +08:00
回复了 redhatping 创建的主题 Python 爬虫爬到 90%的数据以后,超时了。。
seen = []
todo = []

1 将带爬的 url 全部添加到 todo
2 每爬过一个 url 时(或在 ConnectionError 抛出时)在循环体的末尾将 url 添加到 seen
3 再从 todo 删除这个 url

所以断了下次再从 todo 里接着爬就行了
2016-09-12 13:15:50 +08:00
回复了 wenxw1997 创建的主题 Python 模拟登录学校教务系统遇到的问题
如果实在搞不定登录的话,就用 selenium 大法吧,给公司刚写完一个 selenium+phantomjs 的爬虫,用来解决 ajax 网页加载和 304 的问题,楼主可以尝试一下
2016-08-26 22:54:42 +08:00
回复了 liqingcan 创建的主题 Python 一门语言不写都生了
转开发岗后每天都要想思路,要写,要调试,和以前的工作相比熟手快了 N 倍,天天用不熟都难,楼主加油
2016-08-22 13:21:07 +08:00
回复了 katyang 创建的主题 Python selenium 不能加 headers,那该怎么办?
正在写 phantomJS + header :
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap['phantomjs.page.settings.userAgent'] = 'Mozilla/5.0'
driver = webdriver.PhantomJS('path/to/PhantomJS', desired_capabilities=dcap)
driver.get(<your_url>)

虽然加了 header 信息,但最后发现不加 header 目标网站也让我爬
2016-08-10 13:01:08 +08:00
回复了 Tenxcloud10 创建的主题 云计算 Dashboard - Kubernetes 的全功能 Web 界面
@yuankui materializecss 和这个模板有点类似
2016-08-05 09:52:35 +08:00
回复了 yukyuk 创建的主题 广州 有没广州程序媛合租呀
我推荐金沙洲
2016-07-27 22:04:43 +08:00
回复了 t2doo 创建的主题 晒晒更健康 晒一晒你们都买了多少本编程的书,看看谁最多
@henneko PC 上看, 23 寸左右分开,右边 pdf 左边解释器或 ide ,一边刷一边敲速度比看纸质书快,看纸质书心里负担好重
2016-07-27 11:45:02 +08:00
回复了 t2doo 创建的主题 晒晒更健康 晒一晒你们都买了多少本编程的书,看看谁最多
最近八个月的书单
已读的:
[Python.for.Data.Analysis(2012.10)].Wes.McKinney.文字版.pdf
Dimitrios Kouzis-Loukas-Learning Scrapy-Packt Publishing (2016).pdf
FlaskWeb 开发:基于 Python 的 Web 应用开发实战.pdf
Introduction.to.Tornado.Michael.Dory.文字版.pdf
OReilly.Web.Scraping.with.Python.2015.6.pdf
Python 核心编程 第二版.pdf
Python library.pdf
在读的:
(Natural.Language.Processing.with.Python).S.Bird&E.Klein&E.Loper.文字版.pdf
Python.Cookbook 3rd 2013.5 David.Beazley.文字版.pdf
@a412739861 我的 py2.7 windows 环境下可行
只匹配汉字的话:
soup.find_all('td', class_=re.compile(ur'bgwhite\st-[\u4e00-\u9fff]+'))
在 Unicode 编码中只匹配汉字。 4E00-9FFF 为中文字符编码区
2016-07-22 14:35:39 +08:00
回复了 fusae 创建的主题 Python [爬虫求助]像这种数据生成图片的怎么爬?
@davidlau
@fusae
@beibeijia
@JayaOcean
按你们 refer 的方法试了一下,验证码的问题用 pillow 解决解决了,那 iframe 里的内容怎么获取?找数据源还是 selenium+phantomJS 模拟鼠标事件?
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5503 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms · UTC 08:38 · PVG 16:38 · LAX 00:38 · JFK 03:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.