使用 HtmlAgilityPack 解析时删除空格和换行符
我尝试通过以下方式使用 HtmlAgilityPack 解析 HTML:
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);
不幸的是 xhtmlString 包含不必要的空格和换行符,因此 htmlDoc 的 _text 现在看起来像这样:
Alle Auktionen< br />\n\t\n\t\n\n
这个在处理主体的子元素时,这对我来说是一个问题。
删除这些不必要的字符的最简单方法是什么?
HtmlAgilityPack 是否提供某种功能来清除换行符和选项卡中的 HTML?
I tried to parse HTML with the HtmlAgilityPack in the following way:
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);
Unfortunately the xhtmlString contains unnecessary whitespaces and newline characters, so the _text of htmlDoc now looks like this:
<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>
This is a problem for me when working with the child elements of the body.
What is the easiest way to remove these unnecessary characters?
Does the HtmlAgilityPack offer some kind of function for cleaning up HTML from newlines and tabs?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这是文档缩进,而不是不必要的空格和换行符。
我不明白这怎么可能是一个问题,但你不能只替换特殊字符,例如“\t”、“\n”吗?
进行快速搜索后,我发现了这个 Html Agility Pack:使代码看起来整洁
也许将某些属性设置为 false 会有所帮助
This is the document indentation and not unnecessary whitespaces and newline characters.
I cant see how this could be a problem but cant you just replace the special characteres such as "\t", "\n" ?
Doing a fast search i found this Html Agility Pack: make code look neat
Maybe setting up some properties to false can be helpful