HIVE/HDFS 用于大规模实时存储传感器数据？

发布于 2024-12-22 02:00:30 字数 406 浏览 6 评论 0原文

我正在评估具有以下要求的传感器数据收集系统，

100 万个端点每分钟发送 100 字节的数据（作为时间序列）。

基本上对存储进行了数百万次小写入。

此数据是一次性写入的，因此基本上永远不会更新。

访问要求
一个。需要定期访问用户的完整数据（频率较低）
b.用户的部分数据需要定期（更频繁）访问。例如，我需要在过去一小时/天/周/月收集的传感器数据进行分析/报告。

已开始将 Hive/HDFS 作为一种选择。有人可以评论一下 Hive 在这种用例中的适用性吗？我担心虽然分布式存储需求可行，但它似乎比实时数据收集/存储更适合数据仓库应用程序。

HBase/Cassandra 在这种情况下更有意义吗？

原文

I am evaluating sensor data collection systems with the following requirements,

1 million endpoints sending in 100 bytes of data every minute (as a time series).

Basically millions of small writes to the storage.

This data is write-once, so basically it never gets updated.

Access requirements
a. Full data for a user needs to be accessed periodically (less frequent)
b. Partial data for a user needs to be access periodically (more frequent). For e.g I need sensor data collected over the last hour/day/week/month for analysis/reporting.

Have started looking at Hive/HDFS as an option. Can someone comments on the applicability of Hive in such a use case? I am concerned that while the distributed storage needs would work, it seems more suited to data warehousing applications than real time data collection/storage.

Do HBase/Cassandra make more sense in this scenario?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

诺曦 2024-12-29 02:00:30

我认为 HBase 对您来说是一个不错的选择。事实上，HBase 中已经有一个开源实现，可以解决您可能想要使用的类似问题。看一下openTSB，它是一个解决类似问题的开源实现。以下是他们简介的简短摘录：

OpenTSDB 是一个分布式、可扩展的时间序列数据库 (TSDB)
写在HBase之上。 OpenTSDB 的编写是为了解决一个常见问题
需求：存储、索引和服务从计算机系统收集的指标
大规模（网络设备、操作系统、应用程序），以及
使这些数据易于访问和图形化。感谢 HBase 的
可扩展性，OpenTSDB 允许您收集数千个指标
来自数千个主机和应用程序，以很高的速度（每隔几个
秒）。 OpenTSDB 永远不会删除或缩减采样数据，并且可以轻松地
存储数十亿个数据点。事实上，StumbleUpon 使用
它可以跟踪数十万个时间序列并收集
主要生产中每天有超过 6 亿个数据点
数据中心。

回复收藏 0 原文

奈何桥上唱咆哮 2024-12-29 02:00:30

实际上有不少人使用 Cassandra 以时间序列方式收集传感器数据。这是一个非常合适的选择。我建议您阅读这篇有关 Cassandra 中基本时间序列的文章了解您的数据模型是什么样的。

Cassandra 中的写入非常便宜，因此即使是中等大小的集群也可以轻松处理每分钟 100 万次写入。

您的两个阅读查询都可以得到非常有效的答复。对于第二种类型的查询，您正在读取单个传感器的一段时间的数据，您最终会从单行读取连续的切片；完全冷读大约需要 10 毫秒。对于第一种类型的查询，您只需并行运行多个每个传感器查询。假设您将用户的基本映射存储到传感器 ID，您将通过一个查询查找某个用户的所有传感器 ID，然后您的第二个查询将获取所有这些传感器的数据（尽管您可能会在以下情况下分解此查询）传感器数量较多）。

当您谈论实时查询时，Hive 和 HDFS 并没有真正的意义，因为它们更适合长时间运行的批处理作业。

回复收藏 0 原文

~没有更多了~