使用 wget 优化网页抓取

发布于 2024-10-18 21:26:27 字数 143 浏览 5 评论 0原文

我正在使用 wget 下载大量网页(大约 70,000 个)。我被迫在连续的 wget 之间休息大约 2 秒。这需要大量时间。大约 70 天。我想要什么要做的就是使用代理,这样我就可以显着加快该过程。我在此过程中使用一个简单的 bash 脚本。任何建议和评论都会受到赞赏。

I am using wget to download a huge list of web pages(around 70,000).I am forced to put a sleep of around 2 seconds in between successive wget.This takes a huge amount of time.Something like 70 days.What I would like to do is to use proxies so that I can significantly speed up the process.I am using a simple bash script for this process.Any suggestions and comments are appreciated.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

放我走吧 2024-10-25 21:26:27

第一个建议是不要使用 Bash 或 wget。我会使用 Python 和 Beautiful Soup。 Wget 并不是真正为屏幕抓取而设计的。

其次,考虑通过在每台机器上运行列表的一部分来将负载分散到多台机器上。

由于听起来带宽是您的问题,因此您可以轻松地生成一些云图像并将脚本扔给这些人。

First suggestion is to not use Bash or wget. I would use Python and Beautiful Soup. Wget is not really designed for screen scraping.

Second look into spreading the load across multiple machines by running a portion of your list on each machine.

Since it sounds like bandwidth is your issue you can easily spawn up some cloud images and throw your script on those guys.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文