当前位置：文江博客话题详情

检测大型数据集中重复/相似的文本？

发布于 2024-09-30 05:34:35 字数 141 浏览 10 评论 0原文

我有一个包含数千条记录的大型数据库。每次用户发布他的信息时，我都需要知道是否已经有相同/相似的记录。有没有算法或开源实现来解决这个问题？

我们用的是中文，“相似”的意思是记录内容最相同，可能80%-100%是相同的。每条记录不会太大，大约2k-6k字节

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

此岸叶落 2024-10-07 05:34:35

http://d3s.mff.cuni.cz/~holub/sw/shash/

http://matpalm.com/resemblance/simhash/

回复收藏 0 原文

無處可尋 2024-10-07 05:34:35

这个答案是一个非常高的复杂度类（最坏的情况是五次，预期的情况是第一次验证数据库是四次，然后是四次/三次来添加记录，）所以它不能很好地扩展，不幸的是没有我现在能想到一个更好的答案。

该算法称为Ratcliff-Obershelp算法，它是用python的difflib。该算法本身是三次方时间最坏情况和二次方预期情况。然后，您必须对每个可能的记录对执行此操作，这是二次的。当然，当添加一条记录时，这只是线性的。

编辑：抱歉，我误读了文档，difflib 只是二次方，而不是三次方。使用它而不是其他算法。

回复收藏 0 原文

月下凄凉 2024-10-07 05:34:35

看看 shngle-min-hash 技术。这是演示文稿可以帮助您。

回复收藏 0 原文

携余温的黄昏 2024-10-07 05:34:35

我用来做类似事情的一种方法是根据单词统计信息构建通常的搜索索引，然后使用新项目，就好像它是针对该索引的搜索一样 - 如果搜索中顶部项目的分数太高高则表示新商品太相似。毫无疑问，一些标准文本搜索库可以用于此目的，尽管如果只有几千条记录，那么构建自己的搜索库就相当简单了。

回复收藏 0 原文

~没有更多了~

关于作者

好听的两个字的网名

暂无简介

文章

741 人气

关注发私信

友情链接

文江博客

检测大型数据集中重复/相似的文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

检测大型数据集中重复/相似的文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。