Python 中的多线程爬虫真的能加快速度吗？

发布于 2024-09-01 08:04:06 字数 203 浏览 10 评论 0原文

一直想用 python 写一个小网络爬虫。我开始研究将其编写为多线程脚本，一个线程池下载和一个池处理结果。由于 GIL，它实际上会同时下载吗？ GIL 如何影响网络爬虫？每个线程是否会从套接字中选取一些数据，然后移动到下一个线程，让它从套接字中选取一些数据，等等？

基本上我问的是，用 python 做一个多线程爬虫真的会给我带来比单线程更高的性能吗？

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心碎的声音 2024-09-08 08:04:06

在进行网络操作时，Python 解释器不持有 GIL。如果您正在进行网络绑定的工作（例如爬虫），则可以安全地忽略 GIL 的影响。

另一方面，如果您创建大量线程进行处理（下载后），您可能需要测量性能。限制线程数量将减少 GIL 对性能的影响。

回复收藏 0 原文

秋叶绚丽 2024-09-08 08:04:06

看看 scrapy 是如何工作的。它可以帮助你很多。它不使用线程，但可以在同一个线程中进行多个“同时”下载。

如果您考虑一下，您只有一个网卡，因此根据定义并行处理并不能真正提供帮助。

scrapy 的作用是只是在发送另一个请求之前不等待一个请求的响应。全部在一个线程中。

回复收藏 0 原文

望笑 2024-09-08 08:04:06

当涉及到爬行时，您可能最好使用基于事件的东西，例如使用非阻塞异步套接字的 Twisted操作来获取和返回数据，而不是阻塞每一个数据。

异步网络操作很容易并且通常是单线程的。网络 I/O 几乎总是比 CPU 具有更高的延迟，因为你真的不知道一个页面需要多长时间才能返回，而这正是异步的优势，因为异步操作比线程轻得多。

编辑：这是一个简单示例如何使用Twisted的getPage创建一个简单的网络爬虫。

回复收藏 0 原文

孤寂小茶 2024-09-08 08:04:06

另一个考虑因素：如果您正在抓取单个网站，并且服务器对您可以从 IP 地址发送的请求的频率进行限制，那么添加多个线程可能没有什么区别。

回复收藏 0 原文

倾｀听者〃 2024-09-08 08:04:06

是的，多线程抓取显着提高了处理速度。这不是 GIL 的问题。您会失去大量空闲 CPU 和未使用的带宽来等待请求完成。如果您正在抓取的网页位于本地网络中（一种罕见的抓取情况），那么多线程和单线程抓取之间的差异可能会更小。

您可以自己尝试使用 1 到“n”个线程进行基准测试。我在发现 Web 资源，我在自动发现连接到企业网站的博客源和 Twitter、Facebook、LinkedIn 帐户。您可以更改 FocusedWebCrawler 中的 NWORKERS 类变量来选择要使用的线程数。

回复收藏 0 原文

~没有更多了~

关于作者

伴我老

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

Python 中的多线程爬虫真的能加快速度吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

Python 中的多线程爬虫真的能加快速度吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。