当前位置：文江博客话题详情

文本数据版本控制的最佳实践

发布于 2024-10-15 09:45:01 字数 324 浏览 1 评论 0原文

对多个大型 (100MB+) CSV 文件中包含的数据进行版本控制的最佳实践是什么？

SVN 是一个好的选择吗？

更新： 经过一段时间的考虑后，我觉得 GZIP/Zip CSV 文件然后将其添加到存储库可能是更好的选择。这样，我就可以省去版本管理的麻烦，同时又不会损失磁盘空间。它至少与手动管理版本一样好，甚至更好。

仍在寻找完美的解决方案。

另外，还有一个小注意事项： 文件内容的版本控制不是必需的。就像我不需要知道文件中哪些单词发生了变化一样，只要我能够记录更改摘要或向每个版本添加注释即可。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情绪 2024-10-22 09:45:01

这很大程度上取决于您打算如何使用这些文件。

SVN 和大多数其他源代码控制系统都会为您提供唯一标识文件特定版本的修订号。每次您提交新的 CSV 时，该提交都会有自己的修订号。

但是...

根据使用情况，这可能不是一个好的解决方案。假设您签入了一个 CSV，该文件的 SVN 版本号为 1234。然后有人签出该文件，可能会将其发送给其他人等等。CSV 的持有者不会从 CSV 中知道它是什么版本以及因此不知道他们是否使用的是最新版本。

就我个人而言，我会在文件名中添加一个版本号，或者在包含版本号的 CSV 的开头/结尾添加一行 - 但是这些也取决于您的使用情况。

深思熟虑...

编辑此外，差异可能存在问题，我不确定 SVN 是否支持 CSV 上的差异，因此每次您签入时，在 SVN 的内部，它可能会完全取代旧文件（保留旧文件以供参考）。这可能会迅速使用大量磁盘空间。

回复收藏 0 原文

半寸时光 2024-10-22 09:45:01

SVN 非常慢，因为它通过网络传输所有数据。
尝试本地 git 或 hg 存储库。这只需要文件访问，这应该比网络快得多。两种存储库类型在移动文件、文件重命名和合并方面也有更好的处理。此外，git 可以使用“插件”来支持更多文件类型，例如合并 Office 文档（odf、doc 等）。

与 SVN 相比，您只有一个隐藏的存储库目录，其中包含压缩存储库。 SVN 在每个子目录中都有一个 .svn 目录，其中包含文件的最后状态（以及其他内容）。

一些随机数：

假设存储库中所有文件（不是存储库信息）的大小为 100MB，

SVN 签出将需要 200 到 250MB，所有旧版本都必须从 SVN 服务器传输。
git 或 hg 存储库将占用 150MB（假设文件可以很好地压缩），包括文件的所有版本。

这就是我们使用 SVN 和 git 所经历的。我只是偶尔使用汞。

关于 MrEyes 的答案，我还建议向 CSV 文件或文件名添加一些版本信息。 Git 将识别文件重命名，包括更改等。

回复收藏 0 原文

~没有更多了~

关于作者

熟人话多

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

文本数据版本控制的最佳实践

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

文本数据版本控制的最佳实践

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。