大数据探索和分析的架构

发布于 2024-11-26 07:34:19 字数 345 浏览 4 评论 0原文

我们计划为大量事件(数百万个)构建一个数据探索系统。 事件由时间、纬度/经度坐标和一些其他具有域约束值(如类型和用户 ID)的属性组成。

目标是在三个面板上提供数据的可视化:

  • 地图(聚集在标记或热图中
  • 的事件) 时间直方图(按日期分布事件)
  • 属性直方图(属性直方图:类型、用户……)

用户将通过过滤属性(方面)、时间间隔或空间范围以交互方式深入挖掘数据。

我们正在考虑 OLAP 服务器,但不知道这是否是最合适的解决方案。

哪种架构/系统可以处理如此大的数据集上的此操作? 对此有何经验或建议?最好使用开源组件。

谢谢

We are planning to build a data exploration system for a large set of events (in the order of millions).
Events consists of time, lat/long coordinates and some other properties with domain-constrained values like type and userId.

The goal is to provide a visualization of the data on three panels:

  • Map (events clustered in markers or in a heat map)
  • Time histogram (distribution of events by date)
  • Attributes histogram (histogram of attributes: type, users,... )

Users will interactively drill down data by filtering on attributes (facets), time interval or spatial range.

We are thinking of an OLAP server, but don't know if this is the most appropiate solution.

Which architecture/system could handle this operation on such a large data set?
Any experiences or suggestions on this? Preferably with open source componenents.

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

情仇皆在手 2024-12-03 07:34:19

从形式上来说,MathGL 可以轻松处理(更改、制作直方图、绘图等)此类数据集。通常我会绘制更大的数据集(高达几个 Gb 或大约 >1e8 个数字)。 MathGL 是免费的(GPL 和部分 LGPL)绘图库。

Formally, MathGL can handle (change, make histogram, plot, and so on) such data set easily. Usually I plot larger data sets (up to several Gb or about >1e8 numbers). MathGL is free (GPL, and partially LGPL) plotting library.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文