@狮子的魂 你好,想跟你请教个问题:,基本上我需的关键词都是4个汉字到8个汉字,能设置最小词匹配长度吗?这样结果中自动过滤掉了短的词
你可以完全自定义词库,然后让你自己的词库来切分(lex-chars.lex是必须),前提是遵循Jcseg的词库格式!
还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中
这个问题,你也可以依据上面的例子,将英文过滤!
还有个问题就是能只匹配中文吗?因为是行业用的,基本就不需要英文
可以阅读开发帮助文档。这个是词性的意思。。。
这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可:
seg.reset(new StringReader(str)); while ( (word = seg.next()) != null ) { if ( word.length() < 4 ) continue; //do whatever u want here... }
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(10)
你可以完全自定义词库,然后让你自己的词库来切分(lex-chars.lex是必须),前提是遵循Jcseg的词库格式!
引用来自“fir01”的评论
还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中
这个问题,你也可以依据上面的例子,将英文过滤!
还有个问题就是能只匹配中文吗?因为是行业用的,基本就不需要英文
引用来自“fir01”的评论
还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中
还有个问题,我能在随意在默认的lexicon文件夹下添加.lex文件都能自动加载吗?我现在测试好像不行,必须写在已有的文件中
可以阅读开发帮助文档。这个是词性的意思。。。
引用来自“狮子的魂”的评论
这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可:
引用来自“狮子的魂”的评论
这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可:
这个Jcseg没有提供直接的配置支持,你在分词住程序中将词长小于4的直接去掉即可: