使用 wget 优化网页抓取
我正在使用 wget 下载大量网页(大约 70,000 个)。我被迫在连续的 wget 之间休息大约 2 秒。这需要大量时间。大约 70 天。我想要什么要做的就是使用代理,这样我就可以显着加快该过程。我在此过程中使用一个简单的 bash 脚本。任何建议和评论都会受到赞赏。
I am using wget to download a huge list of web pages(around 70,000).I am forced to put a sleep of around 2 seconds in between successive wget.This takes a huge amount of time.Something like 70 days.What I would like to do is to use proxies so that I can significantly speed up the process.I am using a simple bash script for this process.Any suggestions and comments are appreciated.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
第一个建议是不要使用 Bash 或 wget。我会使用 Python 和 Beautiful Soup。 Wget 并不是真正为屏幕抓取而设计的。
其次,考虑通过在每台机器上运行列表的一部分来将负载分散到多台机器上。
由于听起来带宽是您的问题,因此您可以轻松地生成一些云图像并将脚本扔给这些人。
First suggestion is to not use Bash or wget. I would use Python and Beautiful Soup. Wget is not really designed for screen scraping.
Second look into spreading the load across multiple machines by running a portion of your list on each machine.
Since it sounds like bandwidth is your issue you can easily spawn up some cloud images and throw your script on those guys.