jieba分词,同一个词却被分成了两个词,该怎么解决?
对一篇文章进行分词,打算统计词频,但有个问题是对于同一个词,比如说刘德华,jieba分词返回的结果会出现刘德华出现13次,刘德出现7次,但那7个刘德右邻词都是华,理论上分词的结果应该出现20次刘德华才对,这种分词歧义问题该怎么解决呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
添加词典。
filename.txt
里面写:或者添加单词