单机多线程爬虫，是不是线程池大小越大越好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1912 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT 想问一下，关于爬虫效率的问题。

假设前提：

爬虫服务器：1. 单机。2. 网络 1000 Mpbs。3. 硬件（ CPU，内存条，磁盘）当前市场高配水平。

目标网站服务器：1. 不限制 IP，不限访问频率。2. 无限的响应速度（高并发，低延迟）。

请问各位大佬，在上面的前提下，想要最大化爬虫的效率，有哪些优化措施？另外，是不是线程池大小越大越好？

线程池

爬虫

单机

mpbs

18 条回复 • 2019-10-15 15:13:46 +08:00

xeaglex

2019-10-15 12:12:50 +08:00 via Android

尽量调大。CPU，硬盘 IO，网络 IO，三者之一跑满其一为止

wangyzj

2019-10-15 12:30:57 +08:00

把 CPU 干满

wangkai0351

2019-10-15 12:37:19 +08:00

我是外行不懂这个，爬虫应该是 IO 密集操作，多线程的异步搞了没有。

taogen

2019-10-15 12:45:38 +08:00

@wangkai0351 #3 异步没有考虑到，等会研究一下。十分感谢~

ClericPy

2019-10-15 12:47:09 +08:00

以前在 python 里测试过, 1 核 CPU, 线程并发 1 到 2 , 提升明显, 2 到 5 变化也很大, 超过 5, 线程切换开销比较大的情况下, 耗费时间就没那么明显的优势了. python3 ThreadPoolExecutor 官方建议的好像是 n*5, 也就是 pool size 是 None 的时候
if max_workers is None:
# Use this number because ThreadPoolExecutor is often
# used to overlap I/O instead of CPU work.
max_workers = (os.cpu_count() or 1) * 5

不过协程的时候就不会太讲究了, 开 100 并发, 性能一直是线程三倍以上