Jericho-html:是否可以参考源文件中的位置提取文本?
我使用 Jericho HTML 解析器 3.1。
我需要从 html 中提取文本,处理它,并根据此,我需要将标签插入到原始 html 中。
但为此我需要提取的文本和源 html 之间的匹配。
net.htmlparser.jericho.TextExtractor
提取文本效果非常好,但我无法找到如何在原始文件中查找位置。
Jericho-html 可以做到这一点吗?
I use Jericho HTML Parser 3.1.
I need to extract text from html, handle it and according to this, I need to insert tags to original html.
But for this I need matching between extracted text and source html.
net.htmlparser.jericho.TextExtractor
extracts text pretty good, but I was not able to find how to find the location in original file.
Is it possible to do so with Jericho-html?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您无法按原样使用 TextExtractor 执行此操作,但我过去需要执行类似的操作,最简单的解决方案是复制 Jericho 的 TextExtractor 实现并编辑它以添加您自己的自定义行为。这是一个非常简单的类,因此您将能够轻松查看在哪里添加您自己的挂钩。
You cann't do this with the TextExtractor as is, but I've needed to do similar things in the past and the simplest solution is to copy Jericho's TextExtractor implementation and edit it to add your own custom behaviour. It's a pretty simple class so you'll be able to easily see where to add your own hooks.