Solr6.3.0 采用word1.3分词器 高亮显示异常

发布于 2021-12-01 05:43:55 字数 479 浏览 847 评论 7

@杨尚川 你好,想跟你请教个问题:

我在Solr6.3.0上采用word.1.3.jar作为分词器,相应的配置也都按github上的改了,分词没问题,但是高亮出现了很多偏差,在网上搜了很多方案,基本都是说分词器有问题。

并且确定是solr产生的高亮错位,不是内容有什么特殊HTML字符导致的错位

请问这到底是什么原因?该如何修复和调整?是1.3的bug吗?

参考资料:http://www.zihou.me/html/2009/04/16/314.html

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

羁拥 2021-12-03 05:27:06

多谢大神指点 [抱拳]

辞别 2021-12-03 05:00:44

引用来自“杨尚川”的评论

在分词前,将
rn替换为\r\n:

"第一行rn第二行".replace("rn", "\r\n")
坐在坟头思考人生 2021-12-02 22:46:34

大神 可不可以问一下,为什么会出现这种情况,明明源码里面也把r和n作为一个字符,加到整体字符集里了。是因为Java对的转义?

清风夜微凉 2021-12-02 22:46:31

在分词前,将
rn替换为\r\n:

"第一行rn第二行".replace("rn", "\r\n")
飘然心甜 2021-12-01 16:33:52

引用来自“杨尚川”的评论

指定特定的配置文件:
<tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory" segAlgorithm="ReverseMinimumMatching"
        conf="solr-6.3.0/example/solr/nutch/conf/word.local.conf"/>

在word.local.conf文件中设置keep.punctuation=true

多彩岁月 2021-12-01 13:37:53

试了一下,只要有rn字符,高亮就会挪位,我加了一个r,高亮部分整体挪动一位。我把r和n配置在了punctuation.txt里面,重启solr后,依然不生效,请问这种情况应该如何处理。

策马西风 2021-12-01 13:32:47
指定特定的配置文件:
<tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory" segAlgorithm="ReverseMinimumMatching"
        conf="solr-6.3.0/example/solr/nutch/conf/word.local.conf"/>

在word.local.conf文件中设置keep.punctuation=true

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文