当前位置：文江博客话题详情

Python mechanize screen-scraping

难道我们只能获取网页头部信息而不获取正文吗？（机械化）

发布于 2024-08-30 19:30:02 字数 120 浏览 5 评论 0原文

如果我只需要下载自上次下载以来页面未发生更改的页面，该怎么办？最好的方法是什么？我可以先获取页面的大小，然后比较确定它是否已更改，如果是，我要求下载，否则跳过？

我计划使用（python）mechanize。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

吻风 2024-09-06 19:30:02

请求应该是 HEAD，而不是 GET：

9.4头
HEAD 方法与 GET 相同
除了服务器不得返回
响应中的消息正文。这
HTTP 中包含的元信息
响应 HEAD 请求的标头
应与信息相同
响应 GET 请求而发送。
该方法可用于获取
有关实体的元信息
请求暗示没有
转移实体本身。
该方法常用于测试
超文本链接的有效性，
可访问性和最近的
修改。
对 HEAD 请求的响应可能是
可缓存的意思是
响应中包含的信息
可以用来更新以前的
来自该资源的缓存实体。如果
新的字段值表明
缓存的实体与当前的实体不同
实体（如由
内容长度、内容 MD5 的变化，
ETag 或 Last-Modified），然后是缓存
必须将缓存条目视为过时的。

请参阅此处如何执行 HEAD 请求机械化库？

回复收藏 0 原文

羞稚 2024-09-06 19:30:02

是的，您可以通过这样的设置在 python mechanize 中获取更多信息

br = mechanize.Browser()
br.set_debug_http(True)
br.set_debug_redirects(True)
... Your code here ...

通过这样做，您可以获得页面的有价值的标题信息

yes you can get more information in python mechanize by setting like this

br = mechanize.Browser()
br.set_debug_http(True)
br.set_debug_redirects(True)
... Your code here ...

by doing this, you can get valuable header information of the page

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

990 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

书间行客

文章 0 评论 0

我ぃ本無心為│何有愛

文章 0 评论 0

神妖

文章 0 评论 0

undefined

文章 0 评论 0

38169838

文章 0 评论 0

彡翼

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文