如何去除除“src”之外的 HTML 属性 和“替代” 在JAVA中
如何使用 Java 从字符串中的 HTML 标记中去除除“alt”和“src”之外的所有属性?
进一步..如何从字符串中的所有“src”属性获取内容?
:)
How do I strip all attributes from HTML tags in a string, except "alt" and "src" using Java?
And further.. how do I get the content from all "src" attributes in the string?
:)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您可以:
无论您做什么,都不要尝试使用正则表达式。
You can:
Whatever you do, don't try and do it with regular expressions.
好的,以某种方式解决了这个问题。
使用 HTMLCleaner 库将输入数据解析为有效格式。
然后我使用 DOM 解析器迭代所有内容,并删除所有不允许的标签和属性。
(以及一些丑陋的小黑客;))
这是一项大量的工作。
OK, solved this somehow.
Used the HTMLCleaner library to parse the input data to a valid format.
Then I use a DOM parser to iterate over everything, and strip all disallowed tags and attributes.
(and some minor ugly hacks;) )
This was kind of a lot of work.