当前位置：文江博客话题详情

使用 PHP 查找多个条目中抄袭的可能性

发布于 2024-11-08 01:37:43 字数 298 浏览 0 评论 0原文

我正在开发一个跟踪帮助台条目的网络应用程序。我们希望找到一种方法来防止人们复制和粘贴有关常见问题的注释 - 我们希望为每个故障呼叫编写原始的帮助台条目。

无论如何，我们有数千个条目，其中一些是相似的，我试图找到一种方法将它们相互比较，并指出任何与其他条目非常相似的条目，即 80% 可能是直接副本等等。

我研究了similar_text()和其他一些内置的PHP函数，但我有兴趣听听是否有人以前做过类似的事情。我不相信我可以有效地使用similar_text()，因为我需要相互比较多个条目，而不是两个字符串。

任何意见都会受到赞赏。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暮年慕年 2024-11-15 01:37:44

我确实认为similar_text()会做你想要的。只要您的机器有足够的内存来处理比较，它就应该可以正常工作。另请查看 levenshtein() 和 soundex()。

回复收藏 0 原文

七婞 2024-11-15 01:37:44

您可能需要考虑尝试一下 Solr 数据库。虽然您的最终架构可能包含许多不同的字段，但主字段的类型为“文本”，并且包含帮助台条目的文本。默认的 Solr 模式（不需要修改）自动标记文本字段中的数据，以搜索同义词的方式对数据进行索引，“城市”将匹配“城市”等。

最后，使用 Solr，从性能和功能的角度来看，您最终都会得到一个可扩展的解决方案。

回复收藏 0 原文

悲凉≈ 2024-11-15 01:37:44

首先，你为什么关心？如果这是一个可以通过复制和粘贴来响应的常见问题，为什么这不是正确的做法呢？听起来你是为了工作而创造更多的工作。

其次，您可以研究以下内容：
http://en.wikipedia.org/wiki/W-shingling

如果其他选项这里介绍的还不够。

回复收藏 0 原文

~没有更多了~

关于作者

远山浅

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

使用 PHP 查找多个条目中抄袭的可能性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接

使用 PHP 查找多个条目中抄袭的可能性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。