使用 C# 如何获取网页上所有脚本标签(及其内容)的列表/数组?

发布于 2024-09-11 14:47:36 字数 84 浏览 3 评论 0原文

我正在使用 HttpWebRequest 将远程网页放入字符串中,我想列出所有脚本标签(及其内容)以供解析。

做到这一点的最佳方法是什么?

I am using HttpWebRequest to put a remote web page into a String and I want to make a list of all it's script tags (and their contents) for parsing.

What is the best method to do this?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

南七夏 2024-09-18 14:47:36

最好的方法是使用 HTML 解析器,例如 HTML Agilty Pack

从网站:

它是一个 .NET 代码库,允许您解析“网络外”HTML 文件。解析器对“现实世界”格式错误的 HTML 非常宽容。该对象模型与 System.Xml 的建议非常相似,但适用于 HTML 文档(或流)。

示例应用程序:

  • 页面修复或生成。您可以按照您想要的方式修复页面,修改 DOM,添加节点,复制节点,嗯...您能想到的。

  • 网络扫描仪。您可以通过一堆 XPATH 查询轻松访问 img/src 或 a/hrefs。

  • 网络抓取工具。例如,您可以轻松地将任何现有网页废弃到 RSS 提要中,只需使用 XSLT 文件作为绑定即可。提供了一个示例。

The best method is to use an HTML parser such as the HTML Agilty Pack.

From the site:

It is a .NET code library that allows you to parse "out of the web" HTML files. The parser is very tolerant with "real world" malformed HTML. The object model is very similar to what proposes System.Xml, but for HTML documents (or streams).

Sample applications:

  • Page fixing or generation. You can fix a page the way you want, modify the DOM, add nodes, copy nodes, well... you name it.

  • Web scanners. You can easily get to img/src or a/hrefs with a bunch XPATH queries.

  • Web scrapers. You can easily scrap any existing web page into an RSS feed for example, with just an XSLT file serving as the binding. An example of this is provided.

空城缀染半城烟沙 2024-09-18 14:47:36

使用 XML 解析器获取所有脚本标签及其内容。
像这样:简单的 xml

Use an XML parser to get all the script tags with their content.
Like this one: simple xml

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文