哪种数据库技术适用于大结构化数据?

发布于 2024-11-02 18:59:45 字数 1863 浏览 8 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

中性美 2024-11-09 18:59:45

但除此之外,所需的主要功能是以最快速度对数据库运行大型分析

所以现在您只需要 90TB+ 的 RAM 就可以了。 “最大”速度是一个非常相对的概念。

我在大约 200 个表中存储了大约 90TB 的文本。这是结构化的相关数据。任何真正的关系型分布式高性能数据库都可以完成这项工作。

什么是“真正的关系分布式数据库”?

让我们翻转一下。假设您有 90 台服务器,每台服务器保存 1TB 的数据。您计划如何在 200 个表和 90 台服务器之间执行联接?

一般来说,跨服务器连接的扩展性不太好。尝试在 90 台服务器上运行联接的规模可能会更小。对 200 个表进行分区是一项艰巨的工作。

在这种情况下一般要跟踪哪些其他数据库以及从列表中删除哪些数据库

好的,所以这里有很多后续问题:

  • 您现在正在运行什么?
  • 您的痛点是什么?
  • 您真的打算安装一个新系统吗?
  • 是否有可以首先测试的较小的子系统?
  • 如果您有 200 个表,您正在运行多少个不同的查询?数千?
  • 您计划如何测试查询行为是否正确?

But main feature required besides those is running big analyses on the database in maximum speed

So now all you need is 90TB+ of RAM and you're set. "Maximum" speed is a very relative concept.

I have got about 90TB of text in a ~200 tables. This is structured related data. Any true relational distributed and per formant database would do the job.

What is a "true relational distributed database"?

Let's flip this around. Let's say that you had 90 servers and they each held 1TB of data. What's your plan to perform joins amongst your 200 tables and 90 servers?

In general, cross-server joins, don't scale very well. Trying to run joins across 90 servers is probably going to scale even less. Partitioning 200 tables is a lot of work.

which other databases to keep track of generally in this context and which to drop off the list

OK, so there are lots of follow-up questions here:

  • What are you running right now?
  • What are your pain points?
  • Are you really planning to just drop in a new system?
  • Is there a smaller sub-system that can be tested on first?
  • If you have 200 tables, how many different queries are you running? Thousands?
  • How do you plan to test that queries are behaving correctly?
怼怹恏 2024-11-09 18:59:45

听起来很适合 Cassandra + Hadoop。今天只需付出一点努力就可以做到这一点; DataStax(我工作的地方)正在引入 Brisk(也是开源的)以使其变得更容易:http://www.datastax.com datastax.com/products/brisk

Sounds like a good fit for Cassandra + Hadoop. This is possible with a little effort today; DataStax (where I work) is introducing Brisk (also open source) to make it easier: http://www.datastax.com/products/brisk

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文