如何从 JSoup “文档”中删除不间断空格?
如何
<td> </td>
删除这些:或
<td width="7%"> </td>
从我的 JSoup“文档”中 ?我已经尝试了很多方法,但是这些不间断空格字符与正常的 JSoup 表达式或选择器不匹配。
How can I remove these:
<td> </td>
or
<td width="7%"> </td>
from my JSoup 'Document'? I've tried many methods, but these non-breaking space characters do not match anything with normal JSoup expressions or Selectors.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
HTML 实体
(Unicode 字符 NO-BREAK SPACE U +00A0)在 Java 中可以用字符
\u00a0
表示。假设您想要删除包含该字符作为自己的文本的每个元素(因此不是您在评论中所说的每一个行),那么以下应该有效:如果您确实想要删除整个行,那么您最好的选择就是自己逐行扫描 HTML。
The HTML entity
(Unicode character NO-BREAK SPACE U+00A0) can in Java be represented by the character
\u00a0
. Assuming that you want to remove every element which contains that character as own text (and thus not every line as you said in a comment), then the following ought to work:If you really mean to remove the entire line then your best bet is really to scan HTML yourself line by line.