Solr 分词器注入
作为示例,我有一个文本字段,可能包含以下字符串:
“d7199^^==^^81^^==^^一两个句子!!”
我想标记此数据,但让每个标记包含字符串的第一部分。因此,我希望上面的示例中的标记看起来像这样:
"d7199^^==^^81^^==^^a"
"d7199^^==^^81^^==^^sentence "
"d7199^^==^^81^^==^^or"
"d7199^^==^^81^^==^^two"
我该怎么做呢?
As an example I have a text field that might contain the following string:
"d7199^^==^^81^^==^^A sentence or two!!"
I want to tokenize this data but have each token contain the first part of the string. So, I'd like the tokens to look like this for the example above:
"d7199^^==^^81^^==^^a"
"d7199^^==^^81^^==^^sentence"
"d7199^^==^^81^^==^^or"
"d7199^^==^^81^^==^^two"
How would I go about doing this?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以实现自己的自定义 Tokenizer并将其添加到 Solr 类路径中。然后在 Solr schema.xml 和 solrconfig.xml 中使用它
You can implement your own custom Tokenizer and add it to the Solr classpath. Then use it in your Solr schema.xml and solrconfig.xml