大数据探索和分析的架构
我们计划为大量事件(数百万个)构建一个数据探索系统。 事件由时间、纬度/经度坐标和一些其他具有域约束值(如类型和用户 ID)的属性组成。
目标是在三个面板上提供数据的可视化:
- 地图(聚集在标记或热图中
- 的事件) 时间直方图(按日期分布事件)
- 属性直方图(属性直方图:类型、用户……)
用户将通过过滤属性(方面)、时间间隔或空间范围以交互方式深入挖掘数据。
我们正在考虑 OLAP 服务器,但不知道这是否是最合适的解决方案。
哪种架构/系统可以处理如此大的数据集上的此操作? 对此有何经验或建议?最好使用开源组件。
谢谢
We are planning to build a data exploration system for a large set of events (in the order of millions).
Events consists of time, lat/long coordinates and some other properties with domain-constrained values like type and userId.
The goal is to provide a visualization of the data on three panels:
- Map (events clustered in markers or in a heat map)
- Time histogram (distribution of events by date)
- Attributes histogram (histogram of attributes: type, users,... )
Users will interactively drill down data by filtering on attributes (facets), time interval or spatial range.
We are thinking of an OLAP server, but don't know if this is the most appropiate solution.
Which architecture/system could handle this operation on such a large data set?
Any experiences or suggestions on this? Preferably with open source componenents.
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
从形式上来说,MathGL 可以轻松处理(更改、制作直方图、绘图等)此类数据集。通常我会绘制更大的数据集(高达几个 Gb 或大约 >1e8 个数字)。 MathGL 是免费的(GPL 和部分 LGPL)绘图库。
Formally, MathGL can handle (change, make histogram, plot, and so on) such data set easily. Usually I plot larger data sets (up to several Gb or about >1e8 numbers). MathGL is free (GPL, and partially LGPL) plotting library.