使用 tika 自定义 xpath 表达式

发布于 2024-12-01 10:36:29 字数 462 浏览 0 评论 0原文

我正在尝试为 tika 构建自定义 xpath contentHandler 来识别复杂的 xpath 表达式，通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码（因为我使用 tika 来做其他事情）

这个 xpath 可以工作，

/xhtml:html/xhtml:body/descendant:node()

但这不是

//xhtml:div[@id='someid']/descendant:node()

我想集成 tika 的 contentHandler （因为它修复了 html 内容不平衡标签和无效字符）使用 javax.xml.xpath 中的 xpath 评估器。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容，有什么方法可以获取 inputsource 吗？

原文

I am trying build custom xpath contentHandler for tika that recognizes complex xpath expression,
by using code from org/apache/tika/sax/BodyContentHandler.java (because I am using tika for other stuff)

This xpath works

/xhtml:html/xhtml:body/descendant:node()

but this does not

//xhtml:div[@id='someid']/descendant:node()

I want to integrate tika's contentHandler (because it fixes html contents unbalanced tags and invalid character) with xpath evaluator from javax.xml.xpath. What is a proper way of doing that. Is there a way I can get inputsource once tika has evaluated and fixed html content?

分享到QQ

分享到微博