当前位置：文江博客话题详情

在java中从文档中删除html标签的最快方法是什么？

发布于 2024-12-24 19:53:26 字数 183 浏览 4 评论 0 原文

我有一堆网页文档，想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何使用 java 的帖子，从正则表达式到 HtmlCleaner 和 Jsoup。

我有兴趣找到最快的方法来做到这一点。我有数百万个文档，因此性能对我来说至关重要。我什至可以用一点质量来换取性能。

感谢您提前提供任何答复。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

得不到的就毁灭 2024-12-31 19:53:26

我的意见是尽可能多地使用流/SAX 处理：
1）因为它使用较少的内存
2）速度很快
3）可以更容易地并行化（低内存消耗的结果）

当您拥有数百万个文档的用例时，这些因素是需要的（根据我的观点）。
请参阅Wikipedia SAX

因此，如果您的 Html 是严格的或 XHTML。使用 XSLT，这里有一个关于如何使用 SAX 转换 XML (XHTML) 的教程 XSLT+SAX +Java。

最后，如果您没有 XML 有效的 HTML，请查看此 Java：替换使用流（和 PushBackReader）的流、数组、文件等中的字符串。

华泰

回复收藏 0 原文

轮廓§ 2024-12-31 19:53:26

1）如果html是正确的xml那么您可以创建它的文档对象并删除节点。

2) 如果它不是正确的 xml，则将整个 html 读取为字符串 &并使用替换功能删除“html”sunbstring。

如果 HTMl 不是正确的 xml，那么正则表达式是在字符串中替换的最快方法。

回复收藏 0 原文

此生挚爱伱 2024-12-31 19:53:26

似乎 java regexp 是最快的解决方案。然而，它降低了之后获得的文本的质量。

回复收藏 0 原文

~没有更多了~

关于作者

终止放荡

暂无简介

文章

27 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

在java中从文档中删除html标签的最快方法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者