Jericho-html:是否可以参考源文件中的位置提取文本?

发布于 2024-10-30 23:11:50 字数 315 浏览 3 评论 0原文

我使用 Jericho HTML 解析器 3.1。

我需要从 html 中提取文本,处理它,并根据此,我需要将标签插入到原始 html 中。

但为此我需要提取的文本和源 html 之间的匹配。

net.htmlparser.jericho.TextExtractor 提取文本效果非常好,但我无法找到如何在原始文件中查找位置。

Jericho-html 可以做到这一点吗?

I use Jericho HTML Parser 3.1.

I need to extract text from html, handle it and according to this, I need to insert tags to original html.

But for this I need matching between extracted text and source html.

net.htmlparser.jericho.TextExtractor extracts text pretty good, but I was not able to find how to find the location in original file.

Is it possible to do so with Jericho-html?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

不乱于心 2024-11-06 23:11:50

您无法按原样使用 TextExtractor 执行此操作,但我过去需要执行类似的操作,最简单的解决方案是复制 Jericho 的 TextExtractor 实现并编辑它以添加您自己的自定义行为。这是一个非常简单的类,因此您将能够轻松查看在哪里添加您自己的挂钩。

You cann't do this with the TextExtractor as is, but I've needed to do similar things in the past and the simplest solution is to copy Jericho's TextExtractor implementation and edit it to add your own custom behaviour. It's a pretty simple class so you'll be able to easily see where to add your own hooks.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文