首页   注册   登录

holajamc

V2EX 第 137459 号会员,加入于 2015-09-08 21:42:41 +08:00
今日活跃度排名 2662
holajamc 最近回复了
2 天前
回复了 jianzhao123 创建的主题 Python Python 百度百科爬虫结果乱码问题
@holajamc emmm chatset -> charset
2 天前
回复了 jianzhao123 创建的主题 Python Python 百度百科爬虫结果乱码问题
@holajamc 流程大概是这样的,HTTP 的 response 合理的规范会在 Content-Type 中附带 chatset 信息,告知客户端服务端会使用什么样子的编码,比如你可以试试访问 github,看一看 response 的 headers 部分
但是这种设想都是十分美好的事情,比如百度百科的 Content-Type 仅仅只有页面类型,因此 requests 会使用 iso-8859
当然了也可以使用 requests 进行编码推测,这是一件开销很大的事情所以不要尝试~
2 天前
回复了 jianzhao123 创建的主题 Python Python 百度百科爬虫结果乱码问题
In [1]: import requests

In [2]: url = 'https://baike.baidu.com/item/Python/407313'

In [3]: headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebK
...: it/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}

In [4]: r = requests.get(url=url, headers=headers)

In [5]: '计算机程序设计语言' in r.text
Out[5]: False

In [6]: r.encoding = 'utf8'

In [7]: '计算机程序设计语言' in r.text
Out[7]: True
15 天前
回复了 zjgwifi 创建的主题 全球工单系统 阿里 dns223.5.5.5 是不是挂了
ping 它有什么用…
24 天前
回复了 fundebug 创建的主题 投资 A 股又牛市了,想不想进去捞一把?
很明显是个 M
28 天前
回复了 pangtianyu 创建的主题 问与答 阿里云出事了 真的假的
@Dram001 『随时可能会分套房子』
28 天前
回复了 pangtianyu 创建的主题 问与答 阿里云出事了 真的假的
想到了自己去年仿照 GitMiner 的代码写了一个脚本抓到了 GitHub 上面暴露的国内公司的服务器信息。然后傻傻的和他们打电话告知这件事情。

『你是谁,你怎么知道的,你有没有对我们服务器做修改』

这么一套素质三连也让我感到疲惫,看到帖子里面『 The-friend-of-Tom 』和『永远掌握真理』的回复,我确实也有想过放弃这种行为。我不代表任何公司仅代表我个人,我没有任何授权,随时可能会分套房子。
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2268 人在线   最高记录 4385   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 7ms · UTC 15:08 · PVG 23:08 · LAX 08:08 · JFK 11:08
♥ Do have faith in what you're doing.
沪ICP备16043287号-1