NoSQL 用于文件系统存储组织和复制？

发布于 2024-08-31 19:45:06 字数 750 浏览 8 评论 0原文

我们一直在小组内讨论数据仓库策略的设计，以满足测试、可重复性和数据同步要求。建议的想法之一是使用现有工具来适应NoSQL方法，而不是尝试重新实现文件系统上的所有内容都是相同的。我不知道 NoSQL 方法是否是我们想要实现的目标的最佳方法，但也许如果我描述一下我们需要/想要的内容，大家都会有所帮助。

我们的大多数文件都很大，大小超过 50 Gig，以专有的第三方格式保存。我们需要能够通过名称/日期/源/时间/工件组合来访问每个文件。本质上是键值对样式的查找。
当我们查询一个文件时，我们不想将其全部加载到内存中。它们确实太大了，会淹没我们的服务器。我们希望能够以某种方式获取该文件的引用，然后使用专有的第三方 API 来提取其中的部分内容。
我们希望轻松地从存储中添加、删除和导出文件。
我们希望在两台服务器之间设置自动文件复制（我们可以为此编写一个脚本）。也就是说，将一台服务器的内容与另一台服务器同步。我们不需要一个分布式系统，它看起来就像我们只有一台服务器。我们想要完整的复制。
我们还有其他较小的文件，它们与大文件具有树类型关系。一个文件的内容将指向下一个文件，依此类推。它不是一个“辐条轮”，而是一棵成熟的树。

我们更喜欢 Python、C 或 C++ API 来与这样的系统一起工作，但我们大多数人都拥有使用多种语言的经验。只要它有效、能完成工作并节省我们的时间，我们就不介意。你认为呢？外面有这样的东西吗？