当前位置：文江博客话题详情

python实现两篇文章相似度分析

发布于 2022-09-04 18:57:19 字数 117 浏览 18 评论 0

如题，最近有需求要做文章相似度分析，需求很简单，具体就是对比两篇分别300字左右的文章的相似度情况，目前查到的方法，需要先中文分词（jieba），然后对比相似度，时间紧任务重，不知道有没有做过类似功能的大神可以指点一二的

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

残疾 2022-09-11 18:57:19

第一步你已经给出了，首先对文章进行中文分词，然后计算每个词在两篇文章中的tf-idf值。然后计算两个文章的余弦相似度，可以用Python中的gensim实现。

有疑问请继续提问。

回复收藏 0

吾性傲以野 2022-09-11 18:57:19

补一下一楼的答案
在食用余弦相似性或TF-IDF，应该首先去掉停止词。

停止词，是由英文单词:stopword翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，常为冠词、介词、副词或连词等。
因为副词，连词这类词语并不会十分影响我们对语义的判断。

但是单纯的余弦相似性和TF-IDF某种情况下并不能十分的可靠。
推一波自己的链接2333这里

建议使用textrank和以上算法进行结合

回复收藏 0

~没有更多了~

关于作者

疯到世界奔溃

暂无简介

0 文章

0 评论

22 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

python实现两篇文章相似度分析

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签