如何从 JSoup “文档”中删除不间断空格?

发布于 2024-11-29 10:54:33 字数 220 浏览 0 评论 0原文

如何

<td>&nbsp;</td>

删除这些:或

<td width="7%">&nbsp;</td>

从我的 JSoup“文档”中 ?我已经尝试了很多方法,但是这些不间断空格字符与正常的 JSoup 表达式或选择器不匹配。

How can I remove these:

<td> </td>

or

<td width="7%"> </td>

from my JSoup 'Document'? I've tried many methods, but these non-breaking space characters do not match anything with normal JSoup expressions or Selectors.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

万人眼中万个我 2024-12-06 10:54:33

HTML 实体   (Unicode 字符 NO-BREAK SPACE U +00A0)在 Java 中可以用字符 \u00a0 表示。假设您想要删除包含该字符作为自己的文本的每个元素(因此不是您在评论中所说的每一个),那么以下应该有效:

document.select(":containsOwn(\u00a0)").remove();

如果您确实想要删除整个,那么您最好的选择就是自己逐行扫描 HTML。

The HTML entity   (Unicode character NO-BREAK SPACE U+00A0) can in Java be represented by the character \u00a0. Assuming that you want to remove every element which contains that character as own text (and thus not every line as you said in a comment), then the following ought to work:

document.select(":containsOwn(\u00a0)").remove();

If you really mean to remove the entire line then your best bet is really to scan HTML yourself line by line.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文