如何去除除“src”之外的 HTML 属性 和“替代” 在JAVA中

发布于 2024-07-14 00:04:10 字数 105 浏览 11 评论 0原文

如何使用 Java 从字符串中的 HTML 标记中去除除“alt”和“src”之外的所有属性?

进一步..如何从字符串中的所有“src”属性获取内容?

:)

How do I strip all attributes from HTML tags in a string, except "alt" and "src" using Java?

And further.. how do I get the content from all "src" attributes in the string?

:)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

滥情稳全场 2024-07-21 00:04:10

您可以:

  • 实现 SAX 解析器< /a>;
  • 使用 DOM 解析器构建一个文档,遍历它并修剪它,然后转换回HTML; 或
  • 在 XSLT 中使用身份转换(假设您的 HTML 为 XHTML 格式或可以转换为例如,JTidy)以及一些其他情况来删除您不需要的属性。

无论您做什么,都不要尝试使用正则表达式。

You can:

  • Implement a SAX parser;
  • Built a document with a DOM parser, walk it and prune it and then convert back to HTML; or
  • Use an identity transform in XSLT (assuming your HTML is in XHTML format or can be converted to that with, say, JTidy) with some additional cases to remove attributes you don't want.

Whatever you do, don't try and do it with regular expressions.

空城旧梦 2024-07-21 00:04:10

好的,以某种方式解决了这个问题。

使用 HTMLCleaner 库将输入数据解析为有效格式。

然后我使用 DOM 解析器迭代所有内容,并删除所有不允许的标签和属性。

(以及一些丑陋的小黑客;))

这是一项大量的工作。

OK, solved this somehow.

Used the HTMLCleaner library to parse the input data to a valid format.

Then I use a DOM parser to iterate over everything, and strip all disallowed tags and attributes.

(and some minor ugly hacks;) )

This was kind of a lot of work.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文