V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ahxxm  ›  全部回复第 2 页 / 共 13 页
回复总数  252
1  2  3  4  5  6  7  8  9  10 ... 13  
2016-01-03 19:22:04 +08:00
回复了 huamihu 创建的主题 Python 关于中文网页爬虫显示乱码的问题
requests.get().text 在 python2 里是 unicode , python3 里是 str (也是 unicode ), requests 会把网页内容(.content ,类型是 bytes)用 chardet 检测出的编码类型转换成 unicode ,然后给.text 这个 property 。

然而 windows 命令行的默认编码是 cp936 (好像是这么拼的),所以如果 chardet 抽风了, unicode 内容就不合理, print 时候就可能乱码或者报错,后者可能性更高一点。

有两个方法: 0 )你开个文件把爬到的东西写进去,完了用 sublime/notepad++之类的东西打开看看,能看就没错了; 1 )手动给 response.content 做 decode ,我这儿 win10+python3.4.2 , rsp.content.decode('utf-8') != rsp.text

print(web.content.decode('utf-8')),我这个 win10 能正确在 cmd 中打印网页里的中文
2015-12-30 08:29:06 +08:00
回复了 moogle 创建的主题 Python pandas 里关于日期的处理
@moogle 就比如你的 dataframe 长这样

\ A 'date' B C
1
2
3

这个时候可以 pop('date')同时转换……
楼上提到的 parse_dates 印象里接受 col_name ,不过刚看了下源代码, True 时会把 index 处理成 DatetimeIndex 。
pandas 里的黑魔法太多了,建议还是手动来比较好, pandas 版本升级了不容易出错,出错了也知道应该怎么改。。
2015-12-27 14:00:44 +08:00
回复了 yanest 创建的主题 Linux 把没有外网 IP 的服务器上的某个服务发布出去的方法
vpn 拨到 vps 需要客户端固定 ip ,得配置; ngrok 要用它的中转服务器,被干扰很严重;花生壳现在免费版只是个动态域名解析,宽带没外网 ip 没法用;
感觉 ssh -R+自动重连比较好? bitvise 和 myentunnel 都可以自动重连,不过是不是支持-R 就不知道了……
2015-12-27 11:30:46 +08:00
回复了 hzwer 创建的主题 Python 新人写的轮子求指点
@messyidea 开缓存试试。。
2015-12-26 20:59:28 +08:00
回复了 GNiux 创建的主题 Linux 好好学习*nix 系统的学习路径是?(暨年终感言)
@cyio 求搜索关键字(或者来源),一下没找到这事
2015-12-26 19:37:50 +08:00
回复了 hzwer 创建的主题 Python 新人写的轮子求指点
@hzwer 啊看漏两句,严格说来我也算是个人的。。用正则比较轻便吧,感觉每次装 lxml 全球气温都要上升一点
2015-12-26 15:01:11 +08:00
回复了 hzwer 创建的主题 Python 新人写的轮子求指点
@hzwer 它是个 xml 解析库, bs 可以用它来解析网页,可以改成"html.parser"或者其他的试试,不保证能用。。 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser
2015-12-26 14:54:43 +08:00
回复了 moogle 创建的主题 Python pandas 里关于日期的处理
如果你的 index 已经长得像日期了, df.index = pd.DatetimeIndex(df.index); df = df.sort_index() ,如果 index 还是某个叫做 date 的 column ,就先 df.index = pd.DatetimeIndex(df.pop('date'))
2015-12-26 14:52:02 +08:00
回复了 hzwer 创建的主题 Python 新人写的轮子求指点
依赖里没写 lxml ,我新建的 python3 virtualenv 直接 pip install 之用起来会报错……其实直接用正则就可以搞定?

可以尝试兼容 python2 ,加点测试,多点词典后端(英英,离线文件等?)。。

pypi 上的下载都是镜像站带来的,不要太慌
2015-10-27 09:22:32 +08:00
回复了 appleaa 创建的主题 Python scrapy 抓取信息, time.sleep()问题
"*/20 * * * * timeout=600 scrapy crawl cnbeta"加进 crontab 就行了, 20 分钟来一发, 10 分钟没跑完自动干掉进程
2015-10-15 15:04:41 +08:00
回复了 ynztyl10 创建的主题 Python python 修改第三方库的方法,有什么比较简单的办法啊?
2 比较好点, python 第三方库感觉质量普遍不高,还不如自己定制,既减少依赖又容易维护
2015-08-04 12:35:12 +08:00
回复了 Zhihu 创建的主题 酷工作 [北京] [知乎] 急聘反垃圾产品经理 / 反垃圾系统工程师
@deepurple 前端有两个?看来反垃圾要100个以上了
2015-08-04 12:26:51 +08:00
回复了 vicvinc 创建的主题 Python 求推荐 python 几个 python 的 orm
小数据的频繁读写 <- Redis啊.. https://github.com/jonathanslenders/asyncio-redis
2015-05-12 17:25:37 +08:00
回复了 tanteng 创建的主题 Python bs4(beautiful soup 4)简单抓取示例
曾经用过一阵子bs4,发现在vps上会用满cpu,之后就回到regex了
2015-05-06 09:27:50 +08:00
回复了 0bit 创建的主题 问与答 是否有跨平台同步阅读进度、书签、笔记的应用?
似乎不经意间挖坟了
2015-05-06 09:27:35 +08:00
回复了 0bit 创建的主题 问与答 是否有跨平台同步阅读进度、书签、笔记的应用?
@fph418 MoonReader pro也可以,一次购买,不用交订阅费,用的是Google drive/Dropbox …… 不过不能和PC同步
2015-05-02 16:41:38 +08:00
回复了 dedewei 创建的主题 Python 求助 : requests 登录豆瓣, 不成功, 不知道哪里出错,
headers没设置就有验证码
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3272 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 14:13 · PVG 22:13 · LAX 07:13 · JFK 10:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.