使用 HtmlAgilityPack 解析时删除空格和换行符

发布于 2024-12-24 18:47:43 字数 401 浏览 1 评论 0原文

我尝试通过以下方式使用 HtmlAgilityPack 解析 HTML:

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);

不幸的是 xhtmlString 包含不必要的空格和换行符,因此 htmlDoc 的 _text 现在看起来像这样:

\n\t\n\t\n\n

Alle Auktionen< br />

\n\n\t\n

这个在处理主体的子元素时,这对我来说是一个问题。

删除这些不必要的字符的最简单方法是什么?

HtmlAgilityPack 是否提供某种功能来清除换行符和选项卡中的 HTML?

I tried to parse HTML with the HtmlAgilityPack in the following way:

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);

Unfortunately the xhtmlString contains unnecessary whitespaces and newline characters, so the _text of htmlDoc now looks like this:

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

This is a problem for me when working with the child elements of the body.

What is the easiest way to remove these unnecessary characters?

Does the HtmlAgilityPack offer some kind of function for cleaning up HTML from newlines and tabs?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

无人接听 2024-12-31 18:47:43

这是文档缩进,而不是不必要的空格和换行符。

我不明白这怎么可能是一个问题,但你不能只替换特殊字符,例如“\t”、“\n”吗?

进行快速搜索后,我发现了这个 Html Agility Pack:使代码看起来整洁

也许将某些属性设置为 false 会有所帮助

This is the document indentation and not unnecessary whitespaces and newline characters.

I cant see how this could be a problem but cant you just replace the special characteres such as "\t", "\n" ?

Doing a fast search i found this Html Agility Pack: make code look neat

Maybe setting up some properties to false can be helpful

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文