使用 tika 自定义 xpath 表达式

发布于 2024-12-01 10:36:29 字数 462 浏览 0 评论 0原文

我正在尝试为 tika 构建自定义 xpath contentHandler 来识别复杂的 xpath 表达式, 通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码(因为我使用 tika 来做其他事情)

这个 xpath 可以工作,

/xhtml:html/xhtml:body/descendant:node()

但这不是

//xhtml:div[@id='someid']/descendant:node()

我想集成 tika 的 contentHandler (因为它修复了 html 内容不平衡标签和无效字符)使用 javax.xml.xpath 中的 xpath 评估器。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容,有什么方法可以获取 inputsource 吗?

I am trying build custom xpath contentHandler for tika that recognizes complex xpath expression,
by using code from org/apache/tika/sax/BodyContentHandler.java (because I am using tika for other stuff)

This xpath works

/xhtml:html/xhtml:body/descendant:node()

but this does not

//xhtml:div[@id='someid']/descendant:node()

I want to integrate tika's contentHandler (because it fixes html contents unbalanced tags and invalid character) with xpath evaluator from javax.xml.xpath. What is a proper way of doing that. Is there a way I can get inputsource once tika has evaluated and fixed html content?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

倒带 2024-12-08 10:36:29

Tika 中包含的 XPath 功能仅支持 XPath 功能的子集(请参阅 XPathParser 了解详细信息)。对于更复杂的 XPath 查询,我建议使用类似 javax.xml.xpath

The XPath feature included in Tika only supports a subset of XPath features (see XPathParser for details). For more complex XPath queries I recommend using something like javax.xml.xpath.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文