如何使用 Java 创建 XHTML 的基本人类可读纯文本表示形式?

发布于 2024-10-19 10:18:04 字数 415 浏览 4 评论 0原文

给定一些简单的 XHTML,我想创建它的人类可读的纯文本版本。这将涉及删除所有 HTML 标签,但添加或保留一些空白。

例如,此输入:

<div>
<p>This is some text, some is <b>bold</b>.</p>
<ul>
  <li>Point one</li>
  <li>Point two</li>
</ul>
</div>

将变为:

"This is some text, some is bold. Point one Point two"

(LI 之间的逗号是理想的...:)

Given some simple XHTML, I'd like to create a human readable plain text version of it. This would involve removing all HTML tags, but adding or preserving some whitespace.

For example, this input:

<div>
<p>This is some text, some is <b>bold</b>.</p>
<ul>
  <li>Point one</li>
  <li>Point two</li>
</ul>
</div>

would become:

"This is some text, some is bold. Point one Point two"

(commas between the LIs would be ideal... :)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

虚拟世界 2024-10-26 10:18:04

Jericho HTML 解析器。您可以删除所有标签或调用尝试模仿外观的“渲染器”类(例如,您的项目符号列表将被标记)

Jericho HTML Parser. You can either strip all the tags or call on a "renderer" class that tries to mimick the look (eg your bulleted lists would be tabbed)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文