jieba分词,同一个词却被分成了两个词,该怎么解决?

发布于 2022-09-04 08:38:36 字数 124 浏览 16 评论 0

对一篇文章进行分词,打算统计词频,但有个问题是对于同一个词,比如说刘德华,jieba分词返回的结果会出现刘德华出现13次,刘德出现7次,但那7个刘德右邻词都是华,理论上分词的结果应该出现20次刘德华才对,这种分词歧义问题该怎么解决呢?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

漫雪独思 2022-09-11 08:38:37

添加词典。

jieba.load_userdict(file_name.txt)

filename.txt里面写:

刘德华 nz

或者添加单词

jieba.add_word('刘德华')
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文