当前位置：文江博客话题详情

从安全网站抓取数据或自动执行日常任务

发布于 2024-10-19 18:02:36 字数 363 浏览 5 评论 0原文

我有一个网站，我需要使用用户名和密码以及验证码登录。

进入后，我有一个有预订的控制面板。对于每个预订，都有一个详细信息页面的链接，其中包含预订人的电子邮件地址。

每天我都需要所有这些电子邮件地址的列表来向他们发送电子邮件。

我知道如何在 .NET 中抓取网站来获取这些类型的详细信息，但不知道如何抓取需要登录的网站。

我看过一篇文章，其中我可以将 cookie 作为标头传递，这应该可以解决问题，但这需要我在 firebug 中查看 cookie 并将其复制并粘贴过来。

这会被非技术人员起诉，所以这并不是最好的选择。

我在想的另一件事是他们可以运行一个脚本来在浏览器中自动执行此操作？有关如何执行此操作的任何提示？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

苯莒 2024-10-26 18:02:36

无论您是通过 HtmlAgilityPack 查询网络还是直接使用 HttpWebRequest 类（HtmlAgilityPack 使用它），您都应该知道一些事情：< strong>如何处理Cookie。

您应该遵循的基本步骤如下：

加载您想要登录的页面
使用 POST 方法提交登录所需的信息（用户名、密码或页面请求的任何内容）
保存 响应中的 Cookie，并从现在开始使用这些 Cookie。
使用这些 Cookie 请求页面，并使用 HtmlAgilityPack 解析它。

使用 HtmlAgilityPack 时，我总是这样做：使用 HttpWebRequest 向网站发送请求，而不是使用 Load(..) HtmlWeb 类 的方法。

统计一下，HtmlDocument 类中的 Load 方法的参数之一接收一个 Stream。您所要做的就是传递 response 流（通过 request.GetResponseStream() 获得），您将获得所需的 HtmlDocument 对象。

我建议您安装Fiddler。它是一个非常出色的工具，可以检查来自浏览器或应用程序的 HTTP 请求/响应。

运行 Fiddler，并尝试通过浏览器登录站点，并查看浏览器向页面发送什么内容以及页面返回什么内容，而这正是您需要使用 HttpWebRequest< 进行模拟的内容/代码> 类。

编辑：

这个想法不仅仅是在标头中传递静态Cookie。必须是登录后页面返回的Cookie。

要处理Cookie，请查看HttpWebRequest.CookieContainer 属性。这比你想象的要容易。您需要做的就是声明一个 CookieContainer 变量（空），并在向网站发送任何请求之前将其分配给该属性。当网站给出响应时，Cookie 应自动添加到该容器中，以便您下次请求该网站时能够使用它们。

编辑2：

如果您需要的只是一个通过浏览器自动执行的脚本，请查看 WatiN 库。我相信在您看到一两个如何使用它的示例后，您将能够自己运行它;-)