在 Lucene 中使用 XML 字段进行邻近搜索
我有一个如下所示的文档语料库:
<doc>
text sample text <x>text</x> words lipsum words words <x>text</x> some other text
</doc>
我希望能够搜索注释中一定数量的标记中出现的短语(以“”为单位)。我怎样才能像这样索引和搜索?
I have a corpus of documents that look like this:
<doc>
text sample text <x>text</x> words lipsum words words <x>text</x> some other text
</doc>
I would like to be able to search for phrases (in "") that occur within a certain number of tokens from an annotation. How can I index and search like this?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以使用自定义分析器来解析 xml 流。我破解了一个在空白处分割的“>”和 '/',以便 XML 标记由 ' 标识
结果是:
You could use a custom analyzer to parse your xml stream. I hacked one that splits on whitespace, '>' and '/', so that XML tokens are identified by '
The results are: