当前位置：文江博客话题详情

源代码控制系统的算法？

发布于 2024-08-29 10:37:21 字数 314 浏览 6 评论 0原文

我需要编写一个简单的源代码控制系统，并想知道我将使用什么算法来处理文件差异？

由于许可证问题，我不想研究现有的源代码。我需要获得 MPL 许可，因此我无法查看任何现有系统（如 CVS 或 Mercurial），因为它们都是 GPL 许可的。

只是为了提供一些背景知识，我只需要一些非常简单的功能 - 文件夹中的二进制文件。没有子文件夹，每个文件的行为就像它自己的存储库一样。除某些权限外没有元数据。

总的来说，非常简单的东西，我真正关心的是如何仅存储文件在各个版本之间的差异，而不浪费太多空间，但也不会太低效（也许每次更改时存储一个完整版本，有点像视频中的关键帧？）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦醒时光 2024-09-05 10:37:21

最长公共子序列算法是类似 diff 的工具使用的主要机制，并且可以由源代码控制系统利用。

“反向增量”是一种常见的存储方法，因为您主要需要从最近的修订版本向后移动。

回复收藏 0 原文

临走之时 2024-09-05 10:37:21

Patience Diff 是一种很好的算法，用于查找两个文件之间可能对人们有意义的差异。这通常比简单的“最长公共子序列”算法给出更好的结果，但结果是主观的。

话虽如此，许多现代版本控制系统在每个阶段都存储完整的文件，并在以后仅在需要时计算实际差异。对于二进制文件（可能不太可压缩），您可能会发现存储反向增量最终可能会更有效。

回复收藏 0 原文

韵柒 2024-09-05 10:37:21

查看 Subversion 的源代码怎么样？它根据 Apache License 2.0 获得许可

回复收藏 0 原文

执手闯天涯 2024-09-05 10:37:21

Gene Myers 写了一篇很好的论文 一种 O(ND) 差分算法及其变体。当谈到比较序列时，迈尔斯就是那个人。您可能还应该阅读 Walter Tichy 关于 RCS 的论文；它解释了如何通过存储最新版本和差异来存储一组文件。

回复收藏 0 原文

酒儿 2024-09-05 10:37:21

存储增量（向前或向后）的想法对于版本控制来说是经典的。问题一直是“你存储什么增量？”

许多源控制系统存储基本上通过“diff”计算的增量，例如，最长公共子序列的面向行的补集。但是您可以以特定于特定类型文档的方式计算这些文档的增量，以获得更小的（通常更容易理解的）增量。

对于编程语言源代码，可以计算程序结构上的编辑距离。可以在 Smart Differencer 中找到一组用于对各种流行编程语言执行此操作的工具。

如果您存储非文本文件，您也许可以利用它们的结构来计算较小的增量。

当然，如果您想要的是最小的实现，那么只需存储每个文件版本的完整映像就很容易了。太字节磁盘使该解决方案可行，即使不是很漂亮。（PDP10 文件系统曾经隐式地执行此操作）。

回复收藏 0 原文

雨后咖啡店 2024-09-05 10:37:21

虽然fossil是GPL，但delta算法是基于rsync并描述的

回复收藏 0 原文

在梵高的星空下 2024-09-05 10:37:21

前几天我实际上在考虑与此类似的事情......（奇怪，嗯？）

我没有给你一个很好的答案，但我确实得出的结论是，如果我要编写一个文件比较工具，那么我会使用一种算法（用于查找差异）来实现这一点，该算法的功能有点类似于正则表达式的贪婪功能。

至于存储 DIFF...如果我是您，不要存储前向 DIFF（即，您从原始文件开始，然后在使用版本 151 时，计算机对其进行 150 个差异），而是使用存储的 DIFF 来存储您的历史记录但将您的最新文件存储为完整版本。如果您这样做，那么每当您使用最新文件时（可能是 99% 的时间），您都会获得最佳性能。

回复收藏 0 原文

~没有更多了~