V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  practicer  ›  全部回复第 5 页 / 共 8 页
回复总数  149
1  2  3  4  5  6  7  8  
2016-06-29 14:23:29 +08:00
回复了 hippoboy 创建的主题 Python 有个爬虫的疑问
尽管让重复的 item 插进数据库,活干完后 SELECT DUMPS 掉
2016-06-29 13:48:03 +08:00
回复了 fwrq41251 创建的主题 Python 自学 python 应该学 2 还是 3?
如果你按一本入门书来学,入门书里用哪个教,你就学哪个
我的第一本语法书是《 Python 核心编程 第二版》、第二本《 FlaskWeb 开发》
都是 2 ,所以我学的 2

入门后看了更多的书,有的是 3 ,
例如《 OReilly.Web.Scraping.with.Python 》
有的是 2 ,像《[Python.for.Data.Analysis 》、《 Introduction.to.Tornado 》、《 Learning Scrapy-Pack 》
当你入门后,发现当初不管学 2 还是学 3 ,都对后面的学习影响不大, 2 、 3 之间转换的成本不大
2016-06-28 23:04:09 +08:00
回复了 omg21 创建的主题 Python 怎样删除部分字符串?
(?<=<p).+?(?=>)
2016-06-28 21:13:00 +08:00
回复了 omg21 创建的主题 Python 怎样删除部分字符串?
@omg21
s = '''
<p class="p"><p class=‘ p ’><p class=p>
'''

>>> re.compile('<.+?(?=>)', s)
这样写可以匹配 从左到右第一个 “>” 它前面的所有字符,不管它前面是啥
2016-06-28 20:23:58 +08:00
回复了 omg21 创建的主题 Python 怎样删除部分字符串?
@omg21 先打开 http://rubular.com/,在这里测效果直观
是这样的:
class 和 style 两个属性的匹配规则相同,因此用小括号括起来,再用竖线隔开,表示“或”
隔开后:
1. \s?class=\".*?\"\s? 匹配 class 属性
2. \s?style=\".*?\"\s? 匹配 style 属性
看细节
\s 表示空格;
\s?表示空格匹配零次和一次;
class=\"表示 class="(反斜杠是转义符);
.*表示匹配任意字符零次或无限次;

?\"表示匹配从左到右第一个双引号,问号指从左到右第一个,不加问好的话会匹配到整个字符串的最后一个双引号,称为贪婪模式,反斜杠仍然是转义符;

\s?表示匹配空格零次或一次
----
补一下匹配 font 元素字符:<font.+?\/font> 中间的问号同上,匹配从左到右第一个
2016-06-28 15:24:22 +08:00
回复了 practicer 创建的主题 Python python 多线程爬虫问题
这段时间一直在熟悉 scrapy ,得知它由异步框架 twisted 搭建的,并且用 scrapy 对比自己写的爬虫,深深感受到 scrapy 异步回调的威力。

爬虫的正确姿势是异步编程。推荐一个讲解异步模型( twisted 框架)的电子书,从浅到深介绍如何将同步程序重构成异步非阻塞程序 https://www.gitbook.com/book/likebeta/twisted-intro-cn/details

该书第 17 章----生成器实现的异步方式,便是 scrapy 中最常使用的方法了 https://likebeta.gitbooks.io/twisted-intro-cn/content/zh/p17.html 。还有 @EchoUtopia 推荐的文章中介绍的的 asyncio 模块,都是正确的爬虫姿势。
2016-06-28 11:17:14 +08:00
回复了 omg21 创建的主题 Python 怎样删除部分字符串?
倾向用正则
s = '''<p class="p">.......
.....'''

>>> pattern = re.compile('\s?(class|style)=\".*?\"\s?')
>>> result = re.sub(pattern , '', s)
>>> print result
2016-06-28 10:31:08 +08:00
回复了 4ever911 创建的主题 Python C++/C# 程序员转 Python 的困惑
我一般把标准库 pdf 格式的文档下载下来,写代码时遇到不记得了随时查,平时没事时也常翻,不知道这姿势正不正确
2016-06-28 08:53:12 +08:00
回复了 tyhunter 创建的主题 问与答 23 岁了,练字还有希望吗
练字可以当作休息,跟打篮球,跑步,其他兴趣爱好一样。前几天我也有练字的打算,想练毛笔字。然并卵,想了好久却没有行动,楼主想要做的话赶紧做,别问那么多问题,别像我这样吧。
2016-06-27 18:57:41 +08:00
回复了 lissome 创建的主题 搜索引擎优化 请教百度收录规则(百度搜索“草榴”)
真正有这个词的网站被人工删除了,排第一是剩下的,有这种可能性。另外用 wayback machine 差该站的历史页面,看看以前是否有做过这个词
2016-06-27 14:16:12 +08:00
回复了 Flands 创建的主题 Python Python+Flask 有新手上手的项目吗?
@keelii 我指的是粉红色的这个博客应用,它是用 flask 做的吗
2016-06-27 10:56:35 +08:00
回复了 v2v2 创建的主题 问与答 如何利用软件对图片进行找茬?
最近刚看一篇 python 版的 google image 相似图片算法,可以借来试一试,
1 ,去掉色彩,获取每个像素的灰度
2 ,组合像素,计算每 16×16 个像素区域内的灰度平均值,对平均值哈希化
3 ,比较两幅图内的哈希值,若两幅图同一区域出现不同哈希值,判定为找茬成功
Google 原算法里为了减少计算时间,第一步之前还对图片进行压缩了,但找茬游戏的精细度要求高,不需要压缩
2016-06-27 10:00:39 +08:00
回复了 Flands 创建的主题 Python Python+Flask 有新手上手的项目吗?
@keelii 你的博客我好喜欢,我能看一下它的源码吗?
2016-06-26 20:49:55 +08:00
回复了 Flands 创建的主题 Python Python+Flask 有新手上手的项目吗?
@Flands 框架只是一个壳嘛,想放什么就放什么,有内容后自然需要更多的功能来维护和处理数据,结合兴趣引导项目
2016-06-26 19:07:35 +08:00
回复了 Flands 创建的主题 Python Python+Flask 有新手上手的项目吗?
同 python + flask 入的门,当时熟悉了 flask 后,写了一个可以连 Google Analytics 的网页,将获取到的数据用图表展示出来。做数据展示时开始学 numpy + matplotlib 包,边学边做,现在已经能做出像模像样的流量仪表盘了,准备下个月转行时当做面试的作品。这个项目仍在做,下一步想加一个舆论监控的功能。
上手项目其实很多,最好根据自己的兴趣来做内容:电商、音乐、电影、小说、博客、数据展示。想不出来的话就模仿别人的。项目不宜太大,一个页面一个功能一步一步的完成,以后慢慢再加功能。以上是我的入门经历,希望楼主找到合适的入手项目。
2016-06-25 22:38:00 +08:00
回复了 jiaslbang 创建的主题 Python 如何给一份商品清单进行清洗/tagging?
Out[14]:
text_title_id text_title Tag score
652 Gigafactory http: ... Tesla Motors 0.666666666667
675 Whatsapp down ... WhatsApp 0.5
714 Thoughts on SiliconVa ... Silicon Valley 0.928571428571
752 How many computer ... Computer programs 0.590909090909
983 Ask HN: This is what is ... Silicon Valley 0.590909090909
1335 Facebook down The ... Facebook 1.0
1417 Santa Claus VS Justin ... Justin Bieber 0.666666666667
1533 Beauty channel Just ... YouTube 0.555555555556
1558 E canl tv izle ... Websites 0.625
2169 General Motors ... General Motors 0.722222222222

-----------
你想要的是这种效果吗?
自动打 tag 属于机器学习,可以试试 graphlab (和 scikit-learn 类似的,商业软件,一个月免费用)
使用 graphlab 自动打 tag 教程: http://t.im/15qca
2016-06-25 21:52:05 +08:00
回复了 wizardforcel 创建的主题 分享创造 笨办法学 C 翻译完成
请问楼主,我也想参与技术书籍的翻译工作,请问有哪些途径能获取翻译的(潜在的)需求?
我有一个和提主类似的项目,但用的是 google oauth2 做 login ,
如 @gulu @qiayue 所说,上下文用 g 和 session 。
flask 已经做好了针对 oauth 和 openid 的封装,详细操作看教程, flask 真的很好用哦:
openid : https://pythonhosted.org/Flask-OpenID/
oauth2.0 : https://pythonhosted.org/Flask-OAuth/
2016-06-23 16:03:25 +08:00
回复了 jinhan13789991 创建的主题 程序员 毕业一年大专生如何出国留学深造?
对一般家庭来说这是不切实际的想法,不考虑家庭因素读自考利大于弊,出国弊大于利。
2016-06-23 12:41:31 +08:00
回复了 NxnXgpuPSfsIT 创建的主题 Python 五分钟战胜 Python 字符编码
@xiandao7997 没有很系统的了解,只有当遇到具体编码 error 时知道怎么调,我用 py2 入的门。

例如当返回的字符有编码错误,我先 type(x)查一下该结果是 string 还是 Unicode ,如果是 U ,直接 encode('GBK')或 encode('UTF-8'),此时如果仍然出错,看具体 error ,大多数情况那是因为结果中还存在连'GBK'或'UTF-8'编码都不认识的字符,这个时候用 encode('GBK', 'ignore'),即可过滤那部分不认识的字符, error 就消失了。
当 type(x)为 string 时,那么需要先解码为 Unicode 。选 decode('GBK')还是 decode('UTF-8'),或其他编码?需要先了解传入解释器的源字符串的编码格式,如果字符串来自于所爬取的是 utf-8 网页,则选 decode('UTF-8'),如果是 GBK ,则 decode('GBK')。 decode 后字符串转成了 unicode ,面对 Unicode ,和前面处理 Unicode 相同,根据自己的需求 encode 即可。
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2500 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 02:15 · PVG 10:15 · LAX 18:15 · JFK 21:15
Developed with CodeLauncher
♥ Do have faith in what you're doing.