使用哪个数据库来进行结构化-大容量-插入+读取+汇总数据?
要求如下:
- 大容量、结构化、实时数据。
- 数据仅插入(无更新)
- 数据需要实时汇总。
- 数据需要实时分析。
- 事务并不重要(因为数据是只读的),
- 数据结构不会被频繁修改。 (几乎从来没有)
详细说明一下...数据是由软件生成的...一个用户可以拥有该软件的多个实例,并且我们的系统支持多个用户。
我们的系统 >>用户>>他们的软件(所有关系都是一对多 - 从左到右)
Requirements are as follows :
- High volume, structured, real time data.
- data is insert only (no updates)
- Data needs to be summarized- real time.
- data needs to be analyzed - real-time.
- Transactions wont matter (since data is read-only)
- data structure will not be modified frequently. (almost never)
To elaborate a little more...Data is generated by a software...One user can have many instance of this software and our system supports multiple users.
Our System >> Users >> their software (all relations are one to many - left to right)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
说真的,实现实时的唯一方法是根本不存储它,除了将其写入过时的日志文件以进行恢复之外。使用流处理进行分析,而不是数据库。
Seriously, the only way to do real-time is to not store it at all beyond maybe writing it to a dated log file for recovery. Use stream processing for the analysis, not a database.
对于数据存储,使用Hadoop HDFS(Hadoop文件系统)
如果仅插入数据(数据结构不被修改) ,使用 Hive
使用 Sqoop 作为HDFS 和 Hive 之间的连接器。
如果需要搜索数据(类似于搜索引擎),请使用 Solr
最后,为了维护日志数据,请尝试Flume
For Data storage , use Hadoop HDFS (Hadoop File system)
If data is insert only (data structure not getting modified) , use Hive
Use Sqoop as a connector between HDFS and Hive.
If data needs to be search ( something like Search engine ) , use Solr
Lastly for maintaining log data, try Flume