当前位置：文江博客话题详情

Git 能否检测两个源文件本质上是否是彼此的副本？

发布于 2024-12-28 07:48:46 字数 362 浏览 0 评论 0原文

抱歉，如果这是题外话，但这是您减少本网站上“家庭作业”问题数量的机会:-)

我正在教授一门 C 编程课程，学生们在 C 语言的一个小型数字例程库中工作今年，几组学生的源文件中存在大量重复代码。

（直到拼写错误的 printf 调试语句。我的意思是，你能有多蠢。）

我知道 Git 可以检测两个源文件何时彼此相似超过某个阈值，但我从来没有管理过使其能够处理不在 Git 存储库中的两个源文件。

请记住，这些学生并不是特别有经验的学生。他们不太可能会费心更改变量/函数名称。

有没有一种方法可以使用 Git 来检测显着的文字代码重复（即抄袭）？或者您可以推荐其他一些工具

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

爱殇璃 2025-01-04 07:48:46

为什么要使用 git？一种简单但有效的技术是比较所有不同提交之间的差异大小，然后手动检查和比较差异最小的那些。

回复收藏 0 原文

痴情换悲伤 2025-01-04 07:48:46

Moss 是由斯坦福大学计算机科学教授开发的工具。我认为他们也在那里使用它。这就像源代码的 diff 一样。

回复收藏 0 原文

回眸一遍 2025-01-04 07:48:46

添加到其他答案中，您可以使用 diff ——但我认为答案本身没有那么有用。您想要的是匹配的行数，减去非空白行的数量，并且要自动获得该值，您需要使用 wc -l 和 grep 施展一些魔法 计算文件长度的总和，减去 diff 文件的长度，再减去 diff 包含作为匹配的空行数。即使这样，您也会错过一些情况，其中 diff 认为相同的行不匹配，因为它们之前插入了不同的内容。

更好的选择是 https://stackoverflow.com 中列出的建议之一/questions/5294447/how-can-i-find-source-code-copying （或在 https://stackoverflow.com/questions/4131900/how-to-detect-plagiarized-code，尽管答案似乎重复）。