为搜索引擎爬虫创建表单身份验证 cookie

发布于 2024-12-18 10:08:27 字数 472 浏览 3 评论 0原文

大局观：我被要求为我们公司的内部网创建一个搜索引擎。这样的搜索引擎将为 Intranet 上的每个独立应用程序抓取由 XML 文件提供给它的页面。问题是，整个 Intranet 都使用表单身份验证，因此爬虫程序必须能够访问每个应用程序，而无需实际拥有用户凭据（例如用户名和密码）。

Intranet 中的每个应用程序的访问都由权限管理器控制，该管理器本质上是 ASP.NET 附带的默认角色管理器的包装。每个应用程序都可以定义自己的角色并分配具有这些角色的人员。

请注意，可能有数百个应用程序。

爬虫可以访问权限管理器的数据库，因此它知道所有角色是什么。因此，我的想法是让爬虫创建一个 cookie，将其标识为具有每个应用程序的所有角色。

我遇到的问题是：如何创建一个已分配角色的表单身份验证 cookie，而不创建相应的用户（IPrincipal）。

我完全有可能未能完全理解表单身份验证的工作原理，如果是这样，请告诉我我可以采取哪些不同的措施。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

灯下孤影 2024-12-25 10:08:27

这可能不是您想听到的，但是......

我会让爬虫像其他人一样进行身份验证。

鉴于这是您控制的爬虫，为什么要对抗表单身份验证呢？在每个应用程序中创建一个具有所有必需角色的用户似乎是合乎逻辑的（希望您有数百个应用程序的中央管理点，否则我不想成为那里的管理员；-）

如果您执行任何允许“仅爬网程序“特殊访问（绕过基于用户的身份验证基于......什么？爬虫的用户代理？特定的原始 IP？），您创建了一个安全漏洞，黑客可以利用该漏洞来访问所有 Intranet 应用程序，否则这些应用程序将无法访问已与用户认真确保安全ID、密码和角色（事实上，安全漏洞特别广泛，因为您建议授予系统中每个角色的访问权限）。

回复收藏 0 原文