限制pycurl中的文本下载内容

发布于 2024-11-16 12:53:04 字数 84 浏览 1 评论 0原文

我想使用 python (pycurl) 中的curl 下载网站内容。但我不希望这些网站的全部文本只是网站的某些部分。我想减少下载全文所花费的时间。谢谢。

I want to download site content using curl in python (pycurl). But I don't want the whole text of those sites just some part of the site. I want to reduce my time taken in downloading the whole text. Thankyou.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

诗酒趁年少 2024-11-23 12:53:04

您应该设置相关 标题在您的 HTTP 请求中,请参阅此问题了解如何使用 pycurl

注意:此在以下情况下有效:

  1. 知道数据偏移量(以字节为单位) 您想要的数据在结果中的位置
  2. Web 服务器支持此功能

You should set the relevant headers in your HTTP request, see this question on how to do it with pycurl

NOTE: This only works if you:

  1. Know the data offset (in bytes) where in the result the data you want is
  2. The web server supports this
〃安静 2024-11-23 12:53:04

一般来说,加载页面的延迟并不在于 HTML 的实际下载——这通常很快,因为 html 无非是 Unicode 文本。除非页面上有大量的实际文本和标记,否则您不会节省太多。此外,为了获取页面的任何实际内容,您无论如何都需要下载整个 ...

就个人而言,我会异步处理此问题。 Twisted 是此类方法最常见的建议之一。

The delay in loading a page, generally, is not in the actual download of the HTML -- that's often quite quick as html is nothing more than Unicode text. Unless there is a HUGE amount of actual text and markup on a page you're not going to save much. Further, in order to get any of the actual content of the page, you'll need to download the entire <head> anyway...

Personally, I would approach this asynchronously. Twisted is one of the more common suggestions for this type of approach.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文