mmseg4j的simple与complex分词效果一样
最近的项目中用到了solr4.7,因IK不支持4.7,并且之前觉得mmseg4j还不错,就选择了mmseg4j,但是遇到一个奇怪的问题。感觉simple和comple效果一样,我理解的simple不应该是尽量分更多的词,只要词库中存在就分吗?
比如:计算机科学与技术
simple(我认为的):计算机 科学 技术 计算机科学 计算机科学与技术
complex:计算机科学与技术
但实际上simple和complex一样,感觉有点奇怪,是我理解错了?还是用错了?还是有BUG呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
明白了,还有一个问题,你的max-word实现不好,为啥不按IK的那样呢?尽量分出更多的词,只要在词典中存在的,因为实际上,有很多应用场景的,比如,我索引需要max-word,但查询需要complex
simple 是正向最大匹配