当前位置：文江博客话题详情

我有 100 万亿个元素，每个元素的大小从 1 字节到 1 万亿字节 (0.909 TiB)。如何有效地存储和访问它们？

发布于 2024-12-20 23:46:30 字数 249 浏览 5 评论 0原文

这是一个面试问题：

假设：我有 100 万亿个元素，每个元素的大小从 1 字节到 1 万亿字节 (0.909 TiB)。如何有效地存储和访问它们？

我的想法：他们想要测试有效处理大量数据的知识。这不是一个只有一个正确答案的问题。

将它们保存到一些特殊的数据结构中？

其实我对这种开放式问题没什么想法。

非常感谢任何帮助。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

捎一片雪花 2024-12-27 23:46:30

这实际上取决于所讨论的数据集。我认为重点是让您讨论替代方案并描述各种优点/缺点。

也许你应该用更多的问题来回答他们的问题！

需要如何访问它？（顺序、随机、某种可预测的分布？）
元素的顺序重要吗？
元素的大小会改变吗？
插入/删除性能有多重要？

您选择的数据结构将取决于您愿意做出什么样的权衡。

例如，如果您只需要按顺序迭代集合，也许您应该使用链表，因为它的存储开销相对较小。

相反，如果您需要随机访问，您可能需要研究：

哈希表（恒定时间查找，但需要良好的数据哈希函数）
某种索引/树结构？
缓存！您可能无法将其全部保存在内存中 - 即使可以，您也希望尽可能利用数据局部性。

TL;DR：这完全取决于问题。有很多选择。

这本质上与文件系统/数据库面临的问题相同。

回复收藏 0 原文

顾忌 2024-12-27 23:46:30

我会使用某种分布式形式的 B-tree。 B 树能够以非常好的访问时间存储大量数据（树通常不是很深，但很宽）。由于此属性，它可用于关系数据库中的索引。而且将其分布在许多节点（计算机）之间也不会很困难。

我想，这个答案对于面试来说已经足够了......

回复收藏 0 原文

忘东忘西忘不掉你 2024-12-27 23:46:30

最简单、成本最低（至少在大规模扩展之前）的选择是使用现有的服务，例如 Amazon S3。

回复收藏 0 原文

叫嚣ゝ 2024-12-27 23:46:30

好吧，我会使用 DHT 并将其分成 8MB 的块。然后有一个包含文件哈希 (SHA-1 256)、文件名和块的表。

这些块将存储在 3 个不同的 NAS 中。拥有 1200 TB NAS 服务器和负载均衡器，以获取当时更方便获取的 3 个副本中的任何一个。

回复收藏 0 原文

~没有更多了~

关于作者

风筝有风，海豚有海

暂无简介

文章

29 人气

关注发私信

牛↙奶布丁

文章 0 评论 0

关注

COSO

文章 0 评论 0

关注

落叶

文章 0 评论 0

关注

暗地喜欢

文章 0 评论 0

关注

qq_i8qOEG

文章 0 评论 0

关注

qq_Wl4Sbi

文章 0 评论 0

友情链接

文江博客

我有 100 万亿个元素，每个元素的大小从 1 字节到 1 万亿字节 (0.909 TiB)。如何有效地存储和访问它们？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签