如何在客户端 C# 应用程序中模拟 JavaScript

发布于 2024-07-21 17:19:59 字数 504 浏览 10 评论 0原文

我正在编写一个网络爬虫（网络蜘蛛）来爬行网站中的所有链接。我的应用程序是一个 Win32 应用程序，用 C# 和 .Net Framework 3.5 编写。现在我使用 HttpWebRequest 和 HttpWebResponse 与 Web 服务器进行通信。我还构建了自己的 Http 解析器，它可以解析我想要的任何内容。我在解析中找到了所有链接，如“href”、“src”、“action”...。但我无法解决一个问题：在页面中模拟客户端脚本（如JS和VBS）例如，如果像这样的链接：

a href = "javascript:buildLink(1)"

... with buildLink(parameter) 是一个 Javascript 函数，它将根据参数创建自定义链接。

请帮我解决这个问题。如何在这个应用程序中模拟 JavaScript？我可以解析 HTML 源代码并将所有 JavaScript 代码放到另一个文件中，但是如何模拟它的功能呢？谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蘸点软妹酱 2024-07-28 17:20:00

您基本上假装是一个浏览器，只不过 HttpWebRequest 只为您做网络工作。

我建议使用 ie Web 浏览器控件并从您的 C# 应用程序中进行互操作。这将允许你运行 JavaScript、设置变量、发布等。

以下是我在搜索“ie web 浏览器控件”后发现的一些基本链接：

http://www.c-sharpcorner.com/UploadFile/mahesh/WebBrowserInCSMDB12022005001524AM/WebBrowserInCSMDB.aspx
http://support.microsoft.com/kb/313068

回复收藏 0 原文

如若梦似彩虹 2024-07-28 17:20:00

您唯一真正的选择是自动化浏览器。正如其他答案所说，如果没有完整的 DOM，你就无法可靠地模拟浏览器 JavaScript。

幸运的是，有一些方法可以使浏览器自动化，请查看 Selenium。

它有一个 C# API，因此您可以从 C# 控制浏览器。

使用您的 .NET 网络爬虫代码来爬网该网站。每当遇到 href="javascript:... 链接时，请在 Selenium 中处理包含该链接的页面：

使用 Selenium API 告诉浏览器加载页面。
使用 Selenium API 查找所有这样，您的蜘蛛仅在必要时使用 Selenium（没有 javascript 链接的

页面可以由您已有的无浏览器蜘蛛代码处理）。 .wikipedia.org/wiki/Embarrassingly_parallel" rel="nofollow noreferrer">令人尴尬的并行工作负载，您可以轻松地同时运行多个 Selenium 进程（无论是在一台计算机上还是在其他计算机上）。

但请记住， href="javascript 并不是页面拥有动态链接的唯一方式。更常见的情况可能是 onload 或 $(document).ready() 脚本操作 DOM 并以这种方式添加链接。

为了捕获这种情况（和其他情况），蜘蛛可能必须对所有具有