solr 用于查询的多个分词器
我对 SolR 还很陌生。我想使用多个标记器。
我正在使用标准分词器,以便通过 \t、空格、逗号等分割单词。
现在我想使用额外的分词器。
如果有
“cowshed”
这个词,我希望它变成“cow”和“shed”。
我想要拆分的搜索索引中只有几个词是通用的。
因此我计划使用正则表达式标记生成器。但是,当我尝试(“xml root 处的多个标记器”)时,我收到一条错误消息。
难道不可能吗?我需要更改代码吗?我做错了吗?
感谢您的提示:)
I am rather new to SolR. I would like to use multiple tokenizers.
I am using the standard tokenizer so that words get split via \t, space, comma, etc.
Now I would like to use an additional tokenizer.
If there is the word
"cowshed"
I would like it to become "cow" and "shed".
There are only I few words which are common to the search index which I would like to split.
Therefore I planned using the regex tokenizer. However I get an error message when I try to ("multiple tokenizers at xml root").
Is it not possible? Do I need to change the code? Am I doing it wrong?
Thanks for your hints :)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
每个分析器只能有一个分词器。如果您需要修改标记生成器生成的标记,可以使用标记过滤器。
You can only have one tokenizer per analyzer. If you need to modify the tokens generated by the tokenizer you can use token filters.