难道我们只能获取网页头部信息而不获取正文吗? (机械化)
如果我只需要下载自上次下载以来页面未发生更改的页面,该怎么办? 最好的方法是什么?我可以先获取页面的大小,然后比较确定它是否已更改,如果是,我要求下载,否则跳过?
我计划使用(python)mechanize。
What if I only need to download the page if it has not changed since the last download?
What is the best way? can I get the size of the page first, then compare the decide if it has changed, if so, I ask for download else skip?
I plan to use (python) mechanize.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
请求应该是 HEAD,而不是 GET:
请参阅此处 如何执行 HEAD 请求机械化库?
the request should be a HEAD, not a GET:
See here How can I perform a HEAD request with the mechanize library?
是的,您可以通过这样的设置在 python mechanize 中获取更多信息
通过这样做,您可以获得页面的有价值的标题信息
yes you can get more information in python mechanize by setting like this
by doing this, you can get valuable header information of the page