1a1a11a 最近的时间轴更新
1a1a11a

1a1a11a

V2EX 第 209800 号会员,加入于 2017-01-09 06:42:21 +08:00
1a1a11a 最近回复了
2017-03-12 03:37:30 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@Lax 谢谢
2017-03-09 13:02:10 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@jiangzhuo 谢谢
2017-03-09 11:03:37 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@v2pro 好东西,学习了
2017-03-09 11:00:24 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@Lax HLL 是什么,三个字母不太好搜,能不能给个名字?谢谢啦!
2017-03-09 10:59:47 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@bjlbeyond 好像不太对题?还是我没理解到点?
2017-03-09 10:59:20 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@wmttom 这个主意不错,非常感谢
2017-03-09 10:58:30 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@binux 我把去重完的 url 写磁盘了和待爬 url 队列写磁盘了,要不内存不一会儿就满,服务器是前兆带宽,我满载了在爬。。。
2017-03-09 06:43:31 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@jiangzhuo 哦,对,你的数值错了,是 470 亿,单位是 10 亿,不是 1 亿,所以你的计算要再乘以 10
2017-03-09 06:42:53 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@jiangzhuo 为什么我 72G 的内存刷刷刷就满了 :(,估计有不少费 url ,加上 python 可能比较费内存,你发的这个网址挺好玩的,不知道为什么中间突然降下去了,我一直觉得网页总数是单调增加的,不过从这个网站看,还挺稳定的。
2017-03-09 06:40:14 +08:00
回复了 1a1a11a 创建的主题 编程 爬虫判重
@samcode 这个可以考虑,谢谢啦。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1149 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 17:52 · PVG 01:52 · LAX 09:52 · JFK 12:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.