BigTable、SimpleDB 等数据库的优点

发布于 2024-07-06 23:40:39 字数 305 浏览 21 评论 0原文

Google BigTable 和 Amazon SimpleDB 等新学校数据存储范例是专门为可扩展性等而设计的。基本上，禁止连接和非规范化是实现这一目标的方法。

然而，在这个主题中，共识似乎是大型表上的联接不会不一定要太昂贵，而且非规范化在某种程度上被“高估”了那么，为什么上述系统不允许连接并将所有内容强制放在一个表中以实现可扩展性？这些系统中需要存储的数据量是否巨大（数 TB）？
数据库的一般规则是否根本不适用于这些规模？是因为这些数据库类型是专门为存储许多相似的对象而定制的吗？
或者我错过了一些更大的图景？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甲如呢乙后呢 2024-07-13 23:40:39

分布式数据库并不像 Orion 暗示的那么简单；在优化分布式数据集上的完全关系查询方面已经做了很多工作。您可能想了解 Teradata、Netezza、Greenplum、Vertica、AsterData 等公司正在做什么。（甲骨文最终也加入了这个游戏，他们最近宣布了这一消息；微软以以前称为 DataAllegro 的公司的名义购买了他们的解决方案）。

话虽这么说，当数据扩展到 TB 级时，这些问题就变得非常重要。如果您不需要从 RDBM 获得严格的事务性和一致性保证，那么非规范化而不进行连接通常要容易得多。特别是当您不需要太多交叉引用时。特别是如果您不进行临时分析，而是需要通过任意转换进行编程访问。

非规范化被高估了。仅仅因为这就是您处理 100 Tera 时发生的情况，并不意味着每个从未费心去了解数据库并且由于糟糕的架构规划和查询优化而在查询一百万或两行时遇到困难的开发人员都应该使用这个事实。

但如果你在 100 Tera 范围内，无论如何......

哦，这些技术引起轰动的另一个原因是——人们发现有些东西一开始就不属于数据库，并且意识到它们不处理其特定领域中的关系，而是处理基本的键值对。对于不应该存在于数据库中的东西，完全有可能 Map-Reduce 框架或某些持久的、最终一致的存储系统就是这样的东西。

在较小的全球范围内，我强烈推荐 BerkeleyDB 来解决此类问题。

回复收藏 0 原文

ぶ宁プ宁ぶ 2024-07-13 23:40:39

我对他们不太熟悉（我只读过与其他人相同的博客/新闻/示例），但我的看法是他们选择以可扩展性的名义牺牲很多正常的关系数据库功能 -我会尝试解释一下。

假设您的数据表中有 200 行。

在 Google 的数据中心中，其中 50 行存储在服务器 A 上，50 行存储在服务器 B 上，100 行存储在服务器 C 上。此外，服务器 D 包含服务器 A 和 B 中数据的冗余副本，服务器 E 包含服务器 C 上数据的冗余副本。

（在现实生活中，我不知道会使用多少台服务器，但它的设置是为了处理数百万行，所以我想会有相当多的服务器）。

为了“select * where name = 'orion'”，基础设施可以向所有服务器触发该查询，并聚合返回的结果。这使得它们可以在任意数量的服务器上线性扩展（仅供参考，这几乎就是映射缩减），

但这意味着您需要进行一些权衡。

如果您需要对某些数据进行关系联接，这些数据分布在 5 台服务器上，那么每台服务器都需要为每行从彼此提取数据。当您有 200 万行分布在 10 台服务器上时，请尝试这样做。

这导致权衡#1 - 没有连接。

此外，根据网络延迟、服务器负载等，您的一些数据可能会立即保存，但有些可能需要一两秒。同样，当您有数十台服务器时，这会变得越来越长，并且正常的方法“每个人都等着，直到最慢的人完成”不再被接受。

这导致了权衡#2 - 您的数据在写入后可能并不总是立即可见。

我不确定还有哪些其他权衡，但我首先想到的是主要的两个。

回复收藏 0 原文

姜生凉生 2024-07-13 23:40:39

所以我得到的是整个“非规范化，无连接”哲学的存在，不是因为连接本身不能在大型系统中扩展，而是因为它们实际上不可能在分布式数据库中实现。

当您存储单一类型的大部分不变数据时（就像 Google 那样），这似乎相当合理。我走在正确的轨道上吗？

回复收藏 0 原文

鲸落 2024-07-13 23:40:39

如果您谈论的是几乎只读的数据，则规则会发生变化。在数据发生变化的情况下，非规范化是最困难的，因为所需的工作会增加并且锁定问题也会更多。如果数据几乎没有变化，那么非规范化就不是什么大问题。

回复收藏 0 原文

别挽留 2024-07-13 23:40:39

Novaday 您需要为数据库寻找更多的互操作环境。更常见的是，您不仅需要关系型数据库（如 MySQL 或 MS SQL），还需要大数据场（如 Hadoop）或非关系型数据库（如 MongoDB）。在某些情况下，所有这些数据库将在一个解决方案中使用，因此它们的性能在宏观范围内必须尽可能相同。这意味着，您将无法使用 Azure SQL 作为关系数据库，以及一台具有 2 个内核和 3GB RAM 的 VM 用于 MongoDB。您必须扩展您的解决方案并在可能的情况下使用数据库即服务（如果不可能，则在云中构建您自己的集群）。

回复收藏 0 原文

~没有更多了~