当前位置：文江博客话题详情

Linux Python distributed

NoSql 带有我自己的自定义二进制文件？

发布于 2024-10-31 05:47:53 字数 618 浏览 3 评论 0 原文

最初，我只需要处理 1.5[TB] 的数据。由于我只需要快速写入/读取（无需任何 SQL），因此我设计了自己的平面二进制文件格式（使用 python 实现）并轻松（并且愉快地）保存我的数据并在一台机器上对其进行操作。当然，出于备份目的，我添加了两台机器作为精确镜像（使用rsync）。

目前，我的需求不断增长，需要构建一个能够成功扩展到 20[TB]（甚至更多）数据的解决方案。 我很乐意继续使用我的平面文件格式进行存储。它快速、可靠并为我提供所需的一切。

我关心的是复制、数据一致性等（显然，数据必须分布——不是所有数据都可以存储在一台机器上）网络。

是否有任何现成的解决方案（基于Linux / python）可以让我继续使用我的文件格式进行存储，但可以处理NoSql 解决方案通常提供的其他组件是什么？（数据一致性/可用性/易于复制）？

基本上，我想要确保的是我的二进制文件在整个网络中保持一致。我正在使用由 60 台双核机器组成的网络（每台机器都有 1GB RAM 和 1.5TB 磁盘）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清旖 2024-11-07 05:47:53

方法：使用 Disco 项目在 Python 中进行分布式映射缩减

似乎是解决问题的好方法。我使用迪斯科项目也遇到类似的问题。

您可以将文件分布在n台机器（进程）之间，并实现适合您逻辑的map和reduce函数。

disco 项目的教程，准确地描述了如何针对您的问题实施解决方案。您会对需要编写的代码之少感到印象深刻，而且您绝对可以保留二进制文件的格式。

另一个类似的选项是使用 Amazon 的 Elastic MapReduce

回复收藏 0 原文

荆棘i 2024-11-07 05:47:53

也许为 Tarsnap 开发的 Kivaloo 系统的一些评论将帮助您决定最合适的：http://www.daemonology.net/blog/2011-03-28-kivaloo-data-store.html

不了解有关您的应用程序的更多信息（记录的大小/类型、频率读/写）或自定义格式很难说更多。

回复收藏 0 原文

~没有更多了~

关于作者

忱杏

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

NoSql 带有我自己的自定义二进制文件？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

NoSql 带有我自己的自定义二进制文件？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。