请问有最小匹配长度的设置吗?

发布于 2021-11-23 04:19:19 字数 164 浏览 818 评论 10

@狮子的魂 你好,想跟你请教个问题:,基本上我需的关键词都是4个汉字到8个汉字,能设置最小词匹配长度吗?这样结果中自动过滤掉了短的词

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(10

够钟 2021-11-29 20:53:52

你可以完全自定义词库,然后让你自己的词库来切分(lex-chars.lex是必须),前提是遵循Jcseg的词库格式!

噩梦成真你也成魔 2021-11-29 20:50:49

引用来自“fir01”的评论

还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中

2021-11-29 20:50:08

这个问题,你也可以依据上面的例子,将英文过滤!

离不开的别离 2021-11-29 20:50:02

还有个问题就是能只匹配中文吗?因为是行业用的,基本就不需要英文

平定天下 2021-11-29 20:47:14

引用来自“fir01”的评论

还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中

空城仅有旧梦在 2021-11-29 20:19:57

还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中

笑红尘 2021-11-29 14:19:56

可以阅读开发帮助文档。这个是词性的意思。。。

风苍溪 2021-11-29 07:51:42

引用来自“狮子的魂”的评论

这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可:

seg.reset(new StringReader(str));
while ( (word = seg.next()) != null ) 
{
    if ( word.length() < 4 ) continue;
       //do whatever u want here...
}
琴流音 2021-11-25 17:00:35

引用来自“狮子的魂”的评论

这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可:

seg.reset(new StringReader(str));
while ( (word = seg.next()) != null ) 
{
    if ( word.length() < 4 ) continue;
       //do whatever u want here...
}
奈何桥上唱咆哮 2021-11-23 06:51:30

这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可:

seg.reset(new StringReader(str));
while ( (word = seg.next()) != null ) 
{
    if ( word.length() < 4 ) continue;
       //do whatever u want here...
}
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文