当前位置：文江博客话题详情

regex Java html-parsing

如何删除字符串中 HTML 标记中的所有 HTML 属性

发布于 2025-01-08 06:27:05 字数 618 浏览 0 评论 0 原文

我试图获取一个包含 HTML 的字符串，去掉一些标签（img、object）和所有其他 HTML 标签，去掉它们的属性。例如：

<div id="someId" style="color: #000000">
   <p class="someClass">Some Text</p>
   <img src="images/someimage.jpg" alt="" />
   <a href="somelink.html">Some Link Text</a>
</div>

会变成：

<div>
   <p>Some Text</p>
   Some Link Text
</div>

我正在尝试：

string.replaceAll("<\/?[img|object](\s\w+(\=\".*\")?)*\>", ""); //REMOVE img/object

但我不确定如何删除标签内的所有属性。

任何帮助将不胜感激。

谢谢。

原文

I am trying to take a string that has HTML, strip out some tags (img, object) and all other HTML tags, strip out their attributes. For example:

<div id="someId" style="color: #000000">
   <p class="someClass">Some Text</p>
   <img src="images/someimage.jpg" alt="" />
   <a href="somelink.html">Some Link Text</a>
</div>

Would become:

<div>
   <p>Some Text</p>
   Some Link Text
</div>

I am trying:

string.replaceAll("<\/?[img|object](\s\w+(\=\".*\")?)*\>", ""); //REMOVE img/object

I am not sure how to strip all attributes inside a tag though.

Any help would be appreciated.

Thanks.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

青朷 2025-01-15 06:27:05

如果您想过滤特定标签，我不会推荐使用正则表达式。这将是一项艰巨的工作，而且永远不会完全可靠。使用普通的 HTML 解析器，例如 Jsoup。它提供了 Whitelist API 进行清理HTML。另请参阅此食谱文档。

这是在 Jsoup 的帮助下的启动示例，它只允许在所选 Whitelist< 的标准标签集旁边使用


 和 
 标签/code> 是 Whitelist#simpleText()。

String html = "<div id='someId' style='color: #000000'><p class='someClass'>Some Text</p><img src='images/someimage.jpg' alt='' /><a href='somelink.html'>Some Link Text</a></div>";
Whitelist whitelist = Whitelist.simpleText(); // Whitelist.simpleText() allows b, em, i, strong, u. Use Whitelist.none() instead if you want to start clean.
whitelist.addTags("div", "p");
String clean = Jsoup.clean(html, whitelist);
System.out.println(clean);

这导致

<div>
   <p>Some Text</p>Some Link Text
</div>

另请参阅：

如何实现用户以安全的方式发布一些 html 格式的数据的可能性？

I would not recommend regex for this if you want to filter specific tags. This is going to be hell of a job and never going to be fully reliable. Use a normal HTML parser like Jsoup. It offers the Whitelist API to clean up HTML. See also this cookbook document.

Here's a kickoff example with help of Jsoup which only allows <div> and <p> tags next to the standard set of tags of the chosen Whitelist which is Whitelist#simpleText() in the below example.

String html = "<div id='someId' style='color: #000000'><p class='someClass'>Some Text</p><img src='images/someimage.jpg' alt='' /><a href='somelink.html'>Some Link Text</a></div>";
Whitelist whitelist = Whitelist.simpleText(); // Whitelist.simpleText() allows b, em, i, strong, u. Use Whitelist.none() instead if you want to start clean.
whitelist.addTags("div", "p");
String clean = Jsoup.clean(html, whitelist);
System.out.println(clean);

This results in

<div>
   <p>Some Text</p>Some Link Text
</div>

关于作者

输什么也不输骨气

暂无简介

文章

796 人气

关注发私信

友情链接

文江博客

如何删除字符串中 HTML 标记中的所有 HTML 属性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

另请参阅：

See also:

关于作者

相关话题

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接

如何删除字符串中 HTML 标记中的所有 HTML 属性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

另请参阅：

See also:

关于作者

相关话题

热门标签

推荐作者

卷耳

佚名

℉服软

qq_2gSKZM

凉宸

gyhjy

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。