Solr6.3.0 采用word1.3分词器 高亮显示异常
@杨尚川 你好,想跟你请教个问题:
我在Solr6.3.0上采用word.1.3.jar作为分词器,相应的配置也都按github上的改了,分词没问题,但是高亮出现了很多偏差,在网上搜了很多方案,基本都是说分词器有问题。
并且确定是solr产生的高亮错位,不是内容有什么特殊HTML字符导致的错位
请问这到底是什么原因?该如何修复和调整?是1.3的bug吗?
参考资料:http://www.zihou.me/html/2009/04/16/314.html
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
多谢大神指点 [抱拳]
引用来自“杨尚川”的评论
在分词前,将
rn替换为\r\n:
大神 可不可以问一下,为什么会出现这种情况,明明源码里面也把r和n作为一个字符,加到整体字符集里了。是因为Java对的转义?
在分词前,将
rn替换为\r\n:
引用来自“杨尚川”的评论
在word.local.conf文件中设置keep.punctuation=true
试了一下,只要有rn字符,高亮就会挪位,我加了一个r,高亮部分整体挪动一位。我把r和n配置在了punctuation.txt里面,重启solr后,依然不生效,请问这种情况应该如何处理。
在word.local.conf文件中设置keep.punctuation=true