使用 cassandra 监控数据模型的技巧

发布于 2024-11-17 13:59:39 字数 544 浏览 4 评论 0原文

我对 cassandra 比较陌生，必须评估监控工具的不同 NoSQL 解决方案。一项数据大约只有 100 字节大，但数据数量确实很多。一天之内，我们会获得大约 1500 万条记录...... 所以我目前正在测试 9 亿条记录（大约 15GB 作为 SQL-Insert 脚本）

我的第一个问题是： cassandra 满足我的需求吗？我需要进行范围查询（在创建记录的日期），并根据数据中存储的“二级索引”定义的组对一些列进行求和。）

我已经尝试过 MongoDB，但它真的很差，MapReduce 做得非常糟糕工作... 我还阅读了有关 HBase 的内容，但它所需的大量配置让我希望 Cassandra 能够提供解决方案...

第二个问题是：我如何存储数据以通过上述方式访问它？我已经想到了一个超级列族，其中键是日期（自 1970 年以来），列将是当时获取的数据......但是如果我使用随机分区器，我无法进行快速范围查询就其而言（据我所知），如果我使用订单保留分区器，数据将不会分布在我的集群（当前由两个节点组成）上。

我希望我给了你所有必要的信息...... 感谢您的帮助！

安迪

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

寂寞笑我太脆弱 2024-11-24 13:59:39

听起来像是 Brisk（Cassandra + Hadoop 发行版）的工作。完整的 Hadoop 映射/归约，包括 Hive 支持，几乎无需配置。

http://www.datastax.com/products/brisk

回复收藏 0 原文

行至春深 2024-11-24 13:59:39

我们也有类似的情况。

我们将数据存储在简单的行中，其中行键的格式为 :。我们当前的时间段大小是 24 小时。该列是时间戳，值是一个用 msgpack 序列化的小对象。

如果需要，我们手动进行聚合。

我们还做了一个小的优化：当存储桶已满时，它变得不可变，因此我们创建一个“all”对象，将所有值保存在单个列中。然后可以清除每个时间戳列。这使我们能够获取整个存储桶并以 O(1) 的时间对其进行反序列化，而不是扫描整行。

回复收藏 0 原文

~没有更多了~

关于作者

A君

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

使用 cassandra 监控数据模型的技巧

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

使用 cassandra 监控数据模型的技巧

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。