mysql集群赶上cassandra？

发布于 2024-11-30 21:55:19 字数 543 浏览 0 评论 0原文

我最近一直在为我们即将推出的相当大的数据库寻找 nosql 解决方案，发现 cassandra 很好，但是网上关于新版本 cassandra 的可用资源非常少，并且大多数博客和文章都与 0.6 版本相关，而现在它也有实现了对 hadoop 和 hive 的支持。另一方面，mysql 集群版本也是专门为使用商用服务器在水平扩展设置上运行而设计的。

由于我们已经习惯了关系模型多年，迁移到 cassandra 需要对大脑进行反编译，而产品还不是很成熟，社区也没有那么大，无法快速响应任何特定问题，我检查了 datastax（在专业支持中）供应商）网站和他们的论坛几乎已经死了。

那么，如何在抛开关系型和非关系型比较的情况下比较 mysql cluster 和 cassandra 呢？

尽管 cassandra 的模式较少，但它仍然提供了很多表格功能，例如超级列和子列，因此可以从多个列值中搜索记录。

我还尽力找出 cassandra 如何物理存储更新的查询，例如编辑子列并添加相当大的数据块时的行，然后它如何物理存储该记录以及如何快速访问该记录？因为在 mysql 中列分配了固定长度，所以这不是一个大问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

过期情话 2024-12-07 21:55:19

以下是我怀疑 Cassandra 具有优势的一些领域：

对大于内存的数据集的出色支持
复制：Cassandra 支持任意数量的完全分布式副本，而不仅仅是分区副本（因此，您不必拥有多个副本）节点数可除以 Cassandra 中的副本数，并且不存在需要处理主故障转移的极端情况）、对多个数据中心的一流支持、对同步复制和异步复制的支持（重要的是，如果您关心的是完全的持久性）和强大的自我修复（提示切换、读取修复、反熵），以确保您永远不必删除备份副本并从头开始重建它
在 ALTER TABLE、索引创建期间无锁定等等
管理更加简单且不易出错（比较 http://dev.mysql.com/doc/refman/5.1/en/mysql-cluster-online-add-node.html 和 http://wiki.apache.org/cassandra/Operations#Bootstrap)。特别是，我想提请您注意在 Cassandra 场景中需要重新启动多少客户端或其他节点：无。

详细说明一下最后一点，大多数没有在多节点集群上实际运行 Cassandra 的人并没有意识到 Cassandra 为此设计得有多好。如需两分钟的体验，请参阅 Jake Luciani 的演示。

回复收藏 0 原文

挽袖吟 2024-12-07 21:55:19

要回答您的物理存储问题，Cassandra 写入速度快的关键功能是它们仅追加。也就是说，Cassandra 只将连续块写入磁盘；它不需要在写入期间对随机磁盘位置进行任何缓慢的查找。

当列被更新时，会发生两件事：写入被追加到提交日志（用于故障恢复），并且内存中的 Memtable 被更新。一旦 Memtable 满了，它就会作为新的 SSTable 刷新到磁盘。因此，数据的长度并不重要，因为您并不试图将其放入固定长度的磁盘结构中。

SSTable 是只读的 - 您永远不会在更新时返回并覆盖旧值，而只需写入新值。在读取时，Cassandra 首先在 Memtable 中查找密钥。如果没有找到，Cassandra 会按从最新到最旧的顺序扫描 SSTable，并在找到密钥时停止。这将为您提供最新的值。

还有一些优化。每个 SSTable 的键都有一个关联的布隆过滤器，这是一个紧凑的概率索引，可以产生误报，但绝不会产生误报。如果密钥不在布隆过滤器中，您可以安全地跳过该 SSTable，因为它保证不包含该密钥，尽管您偶尔可能会读取不必要的 SSTable。

当您获得太多 SSTable 时，它们会在称为压缩的过程中合并成一个更大的 SSTable。本质上，这对 SSTables 进行了一次大的合并排序。这使 Cassandra 可以回收已覆盖或删除的值的空间，并对分布在多个 SSTable 中的行进行碎片整理。

请参阅http://www.mikeperham.com/2010/03/13 /cassandra-internals-writing/ 和 http://wiki.apache.org/cassandra/MemtableSSTable 了解更多信息。

回复收藏 0 原文

ぇ气 2024-12-07 21:55:19

免责声明；我是 MySQL Cluster 产品团队的一员

如果您正在寻找 Cluster，那么值得从最新的 7.2 开发版本开始，其中包括显着增强 JOIN 性能的新功能，以及新的 memcached接口，绕过SQL层；
http://dev.mysql。 com/tech-resources/articles/mysql-cluster-labs-dev-milestone-release.html

如果您已经熟悉 MySQL，那么以下文档重点介绍了 InnoDB 和当前 GA 7.1 版本之间的差异：
http://dev.mysql。 com/doc/refman/5.1/en/mysql-cluster-ndb-innodb-workloads.html

虽然这些没有提供与 Cassandra 的直接比较，但它们至少提供了有关 Cluster 的最新信息您可以根据它进行任何比较。

回复收藏 0 原文

只有影子陪我不离不弃 2024-12-07 21:55:19

如今的另一个选择是使用 playORM 的 cassandra 中的关系模型，只要您对非常非常大的表进行分区，您就可以使用可扩展 SQL 进行连接以及您熟悉的所有操作，如下所示

@NoSqlQuery(name="findJoinOnNullPartition", query="PARTITIONS p(:partId) select p FROM TABLE as p INNER JOIN p.security as s where s.securityType = :type and p.numShares = :shares"),

注意：该表是一个 Trades 表，并且 p .security 引用安全表。 Trades 是分区的，因此它可以有无限的分区，而 Security 表较小，因此它没有分区，但您可以使用您想要的联接执行所有 Scalabla SQL。

Another option these days is relational model in cassandra with playORM and as long as you partition your really really big tables, you can do joins and all the stuff you are familiar with using Scalable SQL like so

@NoSqlQuery(name="findJoinOnNullPartition", query="PARTITIONS p(:partId) select p FROM TABLE as p INNER JOIN p.security as s where s.securityType = :type and p.numShares = :shares"),

NOTE: The TABLE is a Trades table and p.security references the Security table. Trades is partitioned so it can have unlimited partitions and Security table is smaller so it is not partitioned but you can do all the Scalabla SQL with joins you want to.

回复收藏 0 原文

~没有更多了~