确保 Python 中的页面已正确下载

发布于 2024-12-29 22:44:29 字数 249 浏览 1 评论 0原文

我正在 Python 中使用 Mechanize 和 BeautifulSoup (BS) 编写一个基本的屏幕抓取脚本。然而，我遇到的问题是，由于某种原因，所请求的页面每次都不能正确下载。我得出这个结论是因为当使用 BS 搜索当前标签的下载页面时，我收到错误。如果我再次下载该页面，它就可以工作。

因此，我想编写一个小函数来检查页面是否已正确下载，并在必要时重新下载（我也可以通过找出问题所在来解决它，但这对我来说可能太先进了）。我的问题是如何检查页面是否已正确下载？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

可可 2025-01-05 22:44:29

您可以只检查您期望的标签，如果失败，请重复下载。

page = BeautifulSoup(page)

while page.body = None:
    #redownload the page
    page = BeautifulSoup(page)
#now you can use the data

You can just check for a tag you expect to be there, and if it fails, repeat the download.

page = BeautifulSoup(page)

while page.body = None:
    #redownload the page
    page = BeautifulSoup(page)
#now you can use the data

回复收藏 0 原文

ゝ杯具 2025-01-05 22:44:29

我认为您可以简单地搜索 html 结束标记（如果此标记位于 - 这是一个有效页面）。

回复收藏 0 原文

酷炫老祖宗 2025-01-05 22:44:29

最通用的解决方案是检查 结束标记是否存在。这将使您能够检测页面的截断。

除此之外，您还必须更清楚地描述您的故障模式。

回复收藏 0 原文

~没有更多了~

关于作者

生死何惧

暂无简介

文章

25 人气

关注发私信

饮湿

文章 0 评论 0

关注

明月

文章 0 评论 0

关注

02

文章 0 评论 0

关注

hs1283

文章 0 评论 0

关注

风向决定发型

文章 0 评论 0

关注

落花浅忆

文章 0 评论 0

友情链接

文江博客

确保 Python 中的页面已正确下载

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

确保 Python 中的页面已正确下载

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。