当前位置：文江博客话题详情

Ruby On Rails/Merb 作为数十亿条记录应用程序的前端

发布于 2024-07-08 12:57:51 字数 525 浏览 12 评论 0原文

我正在寻找一个用 Ruby on Rails 或 Merb 编写的应用程序的后端解决方案，以处理具有数十亿条记录的数据。我有一种感觉，我应该采用分布式模型，目前我查看了

HBase 与 Hadoop

Couchdb

我认为HBase解决方案存在问题——ruby支持不是很强，而且Couchdb还没有达到1.0版本。

您有什么建议可以用于处理如此大量的数据吗？

数据有时需要相当快的导入速度，一次导入 30-40Mb，但导入会分块进行。所以大约 95% 的时间数据都是只读的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

揽月 2024-07-15 12:57:51

根据您的实际数据使用情况，MySQL 或 Postgres 应该能够在正确的硬件上处理数十亿条记录。如果您的请求量特别大，这两个数据库都可以跨多个服务器进行复制（并且读复制非常容易设置（与多个主/写复制相比）。

使用带有 Rails 或 Merb 的 RDBMS 的一大优势您是否可以获得访问这些类型数据库的所有优秀工具支持？

我的建议是在其中几个系统中实际分析您的数据并从那里获取数据。

回复收藏 0 原文

只为一人 2024-07-15 12:57:51

人们使用了许多不同的解决方案。根据我的经验，这实际上更多地取决于与该数据相关的使用模式，而不是每个表的绝对行数。

例如，“每秒发生多少次插入/更新”。诸如此类的问题将影响您选择哪种后端数据库解决方案的决定。

以Google为例：实际上并没有满足他们需求的存储/搜索解决方案，因此他们基于Map/Reduce模型创建了自己的解决方案。

回复收藏 0 原文

望笑 2024-07-15 12:57:51

关于 HBase 和其他类似性质的项目的警告（对 CouchDB 一无所知 - 我认为它根本不是真正的数据库，只是一个键值存储）：

Hbase 不是调整速度；它针对可扩展性进行了调整。如果响应速度是一个问题，请在选择此路径之前运行一些概念验证。
Hbase 不支持连接。如果您正在使用 ActiveRecord 并且有多个关系..那么您可以看到这是怎么回事。

Hive 项目也构建在 Hadoop 之上，支持连接； Pig 也是如此（但它不是真正的 sql）。第 1 点适用于两者。它们适用于繁重的数据处理任务，而不是您可能使用 Rails 进行的处理类型。

如果您希望 Web 应用程序具有可扩展性，基本上唯一有效的策略是对数据进行分区并尽可能确保分区是隔离的（不需要彼此通信）。这对于 Rails 来说有点棘手，因为它默认假设有一个中央数据库。自从我大约一年半前查看这个问题以来，这方面可能已经有所改进。如果可以对数据进行分区，则可以相当宽地水平扩展。一台 MySQL 机器可以处理几百万行（PostgreSQL 可能可以扩展到更多的行，但工作速度可能会慢一些）。

另一种有效的策略是设置主从机，其中所有写入均由主机完成，读取在从机（也可能是主机）之间共享。显然这必须相当小心地完成！假设读/写比率较高，则可以很好地扩展。

如果您的组织财力雄厚，请查看 Vertica、AsterData 和 Greenplum 提供的服务。

回复收藏 0 原文