我怎样才能刮掉这个框架？

发布于 2024-08-02 18:33:07 字数 518 浏览 7 评论 0原文

如果您访问此链接现在，您可能会收到 VBScript 错误。

另一方面，如果您先访问此链接，然后然后上面的链接（在同一会话中），页面就会出现。

该应用程序的设置方式是，第一页旨在充当第二（主）页面中的框架。如果您点击一下，您就会看到它是如何工作的。

我的问题：如何使用 Python 抓取第一页？我已经尝试了我能想到的所有方法——urllib、urllib2、mechanize——但我得到的只是 500 个错误或超时。

我怀疑答案在于机械化，但我的机械化还不足以破解这个问题。有人可以帮忙吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

香草可樂 2024-08-09 18:33:07

它总是归结为请求/响应模型。您只需制作一系列 http 请求即可获得所需的响应。在这种情况下，您还需要服务器将每个请求视为同一会话的一部分。为此，您需要弄清楚服务器如何跟踪会话。它可以是很多东西，从 cookie 到隐藏输入以形成操作、发布数据或查询字符串。如果我不得不猜测的话，在这种情况下我会把钱花在 cookie 上（我还没有检查链接）。如果这是正确的，您需要发送第一个请求，保存您返回的 cookie，然后将该 cookie 与第二个请求一起发送。

初始页面也可能包含可让您进入第二页的按钮和链接。这些链接将具有类似其中很多内容都是由第一页生成的。

"Center=RDCC&LogNumber=0197D0820&t=Traffic%20Hazard&l=3358%20MYRTLE&b=" 部分对您必须从第一页获取的一些会话信息进行编码。

当然，您甚至可能需要两者都做。

回复收藏 0 原文