当前位置：文江博客话题详情

使用 C# 屏幕抓取 HTML

发布于 2024-10-10 07:41:01 字数 1431 浏览 6 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蓝颜夕 2024-10-17 07:41:01

您只是在寻找有关如何实现这一目标的建议吗？ HTML Agility Pack 可能是 DOM 解析的最佳选择。可能需要进行大量的修补和反复试验来维护屏幕抓取（通常是为了这类事情），但该库对于解析 HTML 来说非常好。

从技术上讲，任何 XML 解析（甚至是本机 LINQ to XML）都应该可以解决问题，但是网站有一个不好的习惯，即格式不正确，因此您可能会时不时地遇到一些小麻烦。

回复收藏 0 原文

源来凯始玺欢你 2024-10-17 07:41:01

在最近的项目中，我成功地使用 WebRequest 和相关类从 URL 下载 HTML，然后 SgmlReader 解析器来实际访问结构化内容。

回复收藏 0 原文

舞袖。长 2024-10-17 07:41:01

如果每次调用时页面注释和表格布局代码都相同，我会将页面拉入字符串并使用一系列 .IndexOf 和 .Substring 函数来解析数据。使用 IndexOf 函数查找每个字段的起始索引和结束索引。在 Substring 函数中使用这些字段索引来获取数据。

它并不漂亮，但可以完成工作。

回复收藏 0 原文

洒一地阳光 2024-10-17 07:41:01

HtmlDocument 可用于处理 HTML 文档。请参阅以下示例：

http://weblogs .asp.net/grantbarrington/archive/2009/10/15/screen-scraping-in-c.aspx

http://www.stupidiocy.com/development/web-scraping-using-c/

回复收藏 0 原文

回眸一笑 2024-10-17 07:41:01

如果您将 HTML 存储在字符串中，您始终可以使用带有捕获组的正则表达式来解析您需要的信息。

回复收藏 0 原文

~没有更多了~

关于作者

分分钟

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

使用 C# 屏幕抓取 HTML

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

浪漫人生路

620vip

羞稚

走过海棠暮

你好刘可爱

陌若浮生

友情链接

使用 C# 屏幕抓取 HTML

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

浪漫人生路

620vip

羞稚

走过海棠暮

你好刘可爱

陌若浮生

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。