如何存储和查询非常大的数据集（超出关系数据库）

发布于 2024-10-13 16:55:45 字数 244 浏览 12 评论 0原文

我们目前面临的问题是如何有效地存储和检索非常大的数据集（数十亿）中的数据。我们一直在使用 mysql，并优化了系统、操作系统、raid、查询、索引等，现在正在寻求继续前进。

我需要就采用什么技术来解决我们的数据问题做出明智的决定。我一直在研究 HDFS 的 map/reduce，但也听说过有关 HBase 的好消息。我忍不住想还有其他选择。是否对可用技术进行了很好的比较以及每种技术的权衡是什么？

如果您有每个链接可以分享，我也将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

月依秋水 2024-10-20 16:55:45

这是一个广泛的问题。我会尽力给出指示，对于每一个，您都可以查看或询问更多信息。
第一个是......传统数据库。如果数据足够有价值，您可以拥有 RAID 和优质服务器 - Oracle 可能是一个不错的解决方案，但价格昂贵。 TPC-H 是决策支持查询的行业标准基准：http://www.tpc .org/tpch/results/tpch_perf_results.asp，它是指向最佳性能结果的链接。正如您所看到的 - RDBMS 可以扩展到 TB 级的数据。

其次是HDFS + Map/Reduce + Hive形式的Hadoop。 Hive 是 MapReduce 之上的数据仓库解决方案。您可以获得一些额外的好处，例如能够以原始格式存储数据并线性扩展。您将看到的一件事是索引和运行非常复杂的查询。

第三个是 MPP——大规模并行处理数据库。它们可从数十个节点扩展到数百个节点，并具有丰富的 SQL 支持。例如 Netezza、Greenplum、Asterdata、Vertica。其中的选择并不是一件简单的事情，但如果有更精确的要求也是可以完成的。