当前位置：文江博客话题详情

如何从受 Shibboleth 保护的网站上抓取数据？

发布于 2024-11-09 20:21:40 字数 117 浏览 4 评论 0原文

我正在尝试从我的大学网站中抓取数据，该网站使用 Shibboleth 作为一种身份验证/保护形式。然而，我很难确定通过它并到达我想要抓取的页面的最佳方式。我有有效的凭据，可以用来登录。有人对如何完成这项任务有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

执手闯天涯 2024-11-16 20:21:40

我一直在成功地编写 Shibboleth 登录脚本（在我的例子中，是为了监控 Shibboleth IdP 及其保护的应用程序的运行状况）。

我正在使用 Python 的 urllib 模块及其类来处理重定向跟踪和 cookie 传递（对于 Shibboleth）以及登录表单发布。经过一些修改后，urllib 就可以让您通过 Shibbolized 登录获得成功。您可以使用这种方法来处理 Shibbolized 网站的初始登录，然后直接使用 Python 的 urllib 来处理抓取。

用于登录 Shibboleth 的示例 Python 脚本

回复收藏 0 原文