detect_mode分词错误以及动态添加词库问题
@狮子的魂 你好,想跟你请教个问题:
我在使用DETECT_MODE模式分词时,发现一个很严重的错误,分词后词的offset不对,term的startOffset始终为0,如下图所示。
这种错误会导致FastVectorHighlighter无法正常高亮。
另外还有一个问题,如何在索引过程中动态的添加词库。如有两个待索引的文本doc1,doc2,两个文本按照某种规则(可以是正则)分别提取到词汇word1,word2(jcseg词库中均不包含该词)要求:在对doc1进行索引时,对文中出现的word1不进行分词(相当于将“word1”当作jcseg中的“CJK_WORDS”词库,但不将其添加进词库文件中,而是添加至Dictionary.dics中),对doc2进行索引时,同样对word2不进行分词,但是对doc2中出现的word1进行分词, 请问有没有好的实现办法?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
好,我确认下。可以先使用complex或者simple模式来代替,那两种模式没有问题。
我用的就是最新的代码,还是出现了这人问题。
下载使用的最新的代码,前不就提交了修复代码。
至于你的第二个需求,肯定是可以实现,需要你自己去二次开发对Jcseg的词库进行操作。
ADictionary dic = ASegment.getDict();
然后调用set,add,delete等方法来操作词库即可。