detect_mode分词错误以及动态添加词库问题

发布于 2021-11-28 08:41:29 字数 624 浏览 960 评论 3

@狮子的魂 你好,想跟你请教个问题:

我在使用DETECT_MODE模式分词时,发现一个很严重的错误,分词后词的offset不对,term的startOffset始终为0,如下图所示。

这种错误会导致FastVectorHighlighter无法正常高亮。

另外还有一个问题,如何在索引过程中动态的添加词库。如有两个待索引的文本doc1,doc2,两个文本按照某种规则(可以是正则)分别提取到词汇word1,word2(jcseg词库中均不包含该词)要求:在对doc1进行索引时,对文中出现的word1不进行分词(相当于将“word1”当作jcseg中的“CJK_WORDS”词库,但不将其添加进词库文件中,而是添加至Dictionary.dics中),对doc2进行索引时,同样对word2不进行分词,但是对doc2中出现的word1进行分词,  请问有没有好的实现办法?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

带上头具痛哭 2021-12-01 08:22:25

好,我确认下。可以先使用complex或者simple模式来代替,那两种模式没有问题。

情栀口红 2021-12-01 07:35:44

我用的就是最新的代码,还是出现了这人问题。

感情旳空白 2021-11-30 21:44:43

下载使用的最新的代码,前不就提交了修复代码。

至于你的第二个需求,肯定是可以实现,需要你自己去二次开发对Jcseg的词库进行操作。

ADictionary dic = ASegment.getDict();

然后调用set,add,delete等方法来操作词库即可。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文