如何使用Java,Apache Arrow和Apache Parquet获取有效的数据摄入解决方案
我正在为一个数据湖解决 IoT框架的解决方案,该解决方案对几十个传感器进行了44KHz数据采集(〜990.000度/秒)。
我希望使用Java 11+,Apache Arrow和Apache Parquet获得有效的数据摄入解决方案的建议。
对于数据摄取,我目前正在使用avroparquetwriter实现,请 https://github.com/parquet-mrace/parquet-mrache/parquet-mrache/parquet-mr 和我想使用两个字段分区数据集:时间戳和传感器名称。
我找不到在此API中创建分区数据集的示例。
我可以从avroparquetwriter
切换。此外,该解决方案无需支持分布式聚类处理。只需将分区分为本地文件系统上的不同目录就足够了。
顺便说一句,我目前使用DataFusion查询Avroparquetwriter写入的数据集。数据摄入性能令人满意。我对分区数据的兴趣是提高查询性能的目的。
问候
I'm working on a data lake solution for an IoT framework that does 44Khz data acquisition for a few dozen sensors (~990.000 measures/seconds).
I would like suggestions on how to get an efficient data ingestion solution using Java 11+, Apache Arrow and Apache Parquet .
For data ingestion I am currently using the AvroParquetWriter implementation at https://github.com/apache/parquet-mr and I would like to partition the dataset using two fields: timestamp and sensor name.
I'm not finding examples of creating partitioned datasets in this API.
I can switch from AvroParquetWriter
. Furthermore, the solution does not need to support distributed clustered processing. Just separating the partitions into different directories on the local filesystem is enough.
By the way, I currently use DataFusion to query datasets writed by AvroParquetWriter. Data ingestion performance is satisfactory. My interest in partitioning the data serves the purpose of improving query performance.
Regards
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论