使用curl下载页面的更快方法?
您好,
我下载了大量文件进行数据挖掘。我曾经使用 PHP 来实现此目的,但我发现它太慢了。另外我只想要网页的一小部分。我想实现两件事
- Curl 应该能够利用我所有的下载带宽
- 有没有办法只下载我的数据所在的网页的一部分。
我并不局限于 PHP。如果curl 在终端中工作得更好,我会使用它。
Hi,
I download a large amount of files for data mining. I used to use PHP for this purpose but I am finding it to be too slow. Also I just want a small part of the web page. I want to achieve two things
- Curl should be able to utilize all my download bandwidth
- Is there any way to download only a part of the web page where my data resides.
I am not confined to PHP. If curl works better in terminal I would use that.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
是的,您可以使用 CURLOPT_RANGE 选项仅下载页面的一部分,并且您还可以提供一个写入回调函数,当您收到“足够”的数据并且想要停止并继续时,该函数仅返回错误。
Yes, you can download only a part of the page by using the CURLOPT_RANGE option, and you can also provide a write callback function that simply returns an error when you've received "enough" data and you want to stop and move on.
您正在下载 HTML 吗?你的评论让我相信你是。如果是这种情况,只需使用 Simple PHP DOM 加载 html 并仅获取您想要的部分。尽管如此,我很难相信仅仅获取 HTML 会降低你的速度。您还下载任何文件或媒体吗?
链接:http://simplehtmldom.sourceforge.net/
Are you downloading HTML? Your comment leads me to believe that you are. If that's the case, simply load up the html with Simple PHP DOM and get only the part that you want. Although, I find it hard to believe that grabbing just the HTML is slowing you down. Are you downloading any files or media as well?
Link : http://simplehtmldom.sourceforge.net/
无法仅下载页面的一部分。当您请求 URL 时,服务器响应就是它的内容。
利用 cURL 的一次建立多个连接的功能,充分利用您的带宽。
There is no way to download only part of a page. When you request a URL, the server response is what it is.
Utilize more of your bandwidth by using cURL's ability to make multiple connections at once.