当前位置：文江博客话题详情

从 html 获取将显示给用户的文本

发布于 2024-09-05 20:12:47 字数 480 浏览 6 评论 0原文

有点随机，我想玩一些 NLP 东西，我想：

从 HTML 获取将在浏览器中显示给用户的所有文本。

我理想的输出中不会有任何标签，只会有句号（以及使用的任何其他标点符号）和换行符，尽管我可以容忍相当合理的失败量（随机其他内容最终出现在输出中）。

如果有一种方法可以在内容可能无法继续的情况下插入换行符或句号，那么这将被视为额外的好处。例如：

ul 或选项标签中的项目可以用句号分隔（或者说实话只是忽略）。

我正在使用 Java，但有兴趣查看执行此操作的任何代码。

我可以（如果需要的话）想出一些办法来做到这一点，只是想知道是否已经有类似的东西了，因为它可能比我在一个下午想出的更好;-)。

如果我最终这样做的话，我可能编写的代码示例是使用 SAX 解析器来查找 p 标签中的内容，去除任何 span 或强等标签，并在我点击 div 或另一个没有句号的 p。

非常欢迎任何指示或建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

失而复得 2024-09-12 20:12:48

HTML 解析器似乎是一个合理的起点。

其中有很多，例如： HTMLCleaner 和 Nekohtml 似乎工作正常。

它们很好，因为它们可以修复标签，让您能够更一致地处理它们，即使您只是删除它们。

但事实证明，您可能想要摆脱脚本标签元数据等。在这种情况下，您最好使用这些人从“野生”html 中为您获取的格式良好的 XML。

有很多与此相关的问题（例如这个），您应该搜索“ HTML 解析”不过;-)

回复收藏 0 原文

递刀给你 2024-09-12 20:12:47

嗯……几乎任何 HTML 解析器都可以用来创建您想要的效果——只需运行所有标签并仅发出文本元素，并为每个块元素的结束标签发出 LF。正如您所说，SAX 实现将简单且直接。

回复收藏 0 原文

獨角戲 2024-09-12 20:12:47

我会删除所有带有 <> 的内容标签，如果您想在每个句子的末尾添加句号，请检查结束标签并放置句号。

如果您有

<strong> test </strong>

（以及其他改变测试外观的标签），您可以放置条件而不在此处放置句号。

I would just strip everything out that has <> tags and if you want to have a full stop at the end of every sentence you check for closing tags and place a full stop.

If you have

<strong> test </strong>

(and other tags that change the look of the test) you could place in conditions to not place a full stop here.

回复收藏 0 原文

~没有更多了~

关于作者

小瓶盖

暂无简介

0 文章

0 评论

334 人气

关注发私信

娇女薄笑

文章 0 评论 0

关注

biaggi

文章 0 评论 0

关注

xiaolangfanhua

文章 0 评论 0

关注

rivulet

文章 0 评论 0

关注

我三岁

文章 0 评论 0

关注

薆情海

文章 0 评论 0

友情链接

文江博客

从 html 获取将显示给用户的文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者