使用jsoup解析XML——防止jsoup“清理”XML <链接>标签

发布于 2024-11-24 09:34:10 字数 254 浏览 1 评论 0 原文

在大多数情况下，我使用 jsoup 解析 XML 没有问题。但是，如果 XML 文档中有标签，jsoup 会将 some text here 更改为 。这使得无法使用 CSS 选择器提取标记内的文本。

那么如何防止jsoup“清理”标签呢？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

魂归处 2024-12-01 09:34:13

不要在元素中存储任何文本 - 这是无效的。如果您需要额外信息，请将其保存在 HTML5 data-* 属性中。我确信 jsoup 不会碰它。

<link rel="..." data-city="Warsaw" />

Do not store any text inside <link> element - it's invalid. If you need extra information, keep it inside HTML5 data-* attributes. I'm sure jsoup won't touch it.

<link rel="..." data-city="Warsaw" />

回复收藏 0 原文

土豪 2024-12-01 09:34:13

对此可以有一个解决方法。在将 XML 传递给 jsoup 之前。转换 XML 文件以用一些虚拟标签替换所有内容并执行您想做的操作。

回复收藏 0 原文

逆夏时光 2024-12-01 09:34:12

在 jsoup 1.6.2 中，我添加了 XML 解析器模式，它将输入解析为-是，不应用 HTML5 解析规则（元素内容、文档结构等）。此模式会将文本保留在标记中，并允许多个文本等。

下面是一个示例：

String xml = "<link>One</link><link>Two</link>";
Document xmlDoc = Jsoup.parse(xml, "", Parser.xmlParser());

Elements links = xmlDoc.select("link");
System.out.println("Link text 1: " + links.get(0).text());
System.out.println("Link text 2: " + links.get(1).text());

Link text 1: One
Link text 2: Two

In jsoup 1.6.2 I have added an XML parser mode, which parses the input as-is, without applying the HTML5 parse rules (contents of element, document structure, etc). This mode will keep text in a <link> tag, and allow multiples of it, etc.

Here's an example:

String xml = "<link>One</link><link>Two</link>";
Document xmlDoc = Jsoup.parse(xml, "", Parser.xmlParser());

Elements links = xmlDoc.select("link");
System.out.println("Link text 1: " + links.get(0).text());
System.out.println("Link text 2: " + links.get(1).text());

Returns: