Hanlp分词器的停用词无效

发布于 2022-01-05 16:14:12 字数 250 浏览 966 评论 1

使用lucene测试hanlp的分词效果,发现hanlp配置的停用词根本不生效,请问有遇到过这问题的吗?

hanlp的停用词 路径说是不用改

#停用词词典路径
CoreStopWordDictionaryPath=data/dictionary/stopwords.txt

我的路径也是对的,因为其余的配置没问题,但是stopwords.txt文件中 的停用词根本没有作用,lucene在创建索引库的时候,还是会将停用词 分词存储

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

无法言说的痛 2022-01-07 11:40:19
java代码里添加这一句,开启停用词,这个是标准分词示例。
List<Term> termList = CoreStopWordDictionary.apply(StandardTokenizer.segment(sentence));
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文