将流式数据读取到排序列表中

发布于 2024-11-18 04:37:32 字数 491 浏览 4 评论 0原文

我们知道，一般来说，对任意数据进行“更智能”的比较排序在最坏情况下的复杂度为 O(N * log(N))。

我的问题是，如果我们被要求不对集合进行排序，而是对数据流进行排序，会发生什么。也就是说，值是一一给我们的，没有指示接下来会发生什么（除了数据有效/在范围内）。直观上，人们可能会认为，在数据传入时对其进行排序（例如一手拿起一手扑克牌）比收集所有数据并稍后进行排序（在发牌后对一手扑克牌进行排序）要好。事实真的是这样吗？

收集和排序的时间复杂度为 O(N + N * log(N)) = O(N * log(N))。但是，如果我们按输入顺序对它进行排序，则为 O(N * K)，其中 K = 找到正确索引的时间 + 插入元素的时间。这使事情变得复杂，因为 K 的值现在取决于我们对数据结构的选择。数组在查找索引方面表现出色，但在插入元素时会浪费时间。链表可以更容易地插入，但不能二分查找来查找索引。

这个问题有完整的讨论吗？我们什么时候应该使用一种方法或另一种方法？是否存在一种理想的中间策略，每隔一段时间进行排序？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

ㄖ落Θ余辉 2024-11-25 04:37:32

平衡树排序具有O(N log N)复杂度并保持添加元素时按排序顺序列出。

回复收藏 0 原文

俏︾媚 2024-11-25 04:37:32

绝对不是！

首先，如果我可以对流中数据进行排序，我可以接受 O(N) 中的所有数据，然后将其流式传输给自己并使用更快的方法对其进行排序。即，您可以执行从所有数据到流的减少，这意味着它不能更快。

其次，您描述的是插入排序，它实际上在 O(N^2) 时间内运行（即您对 O(NK) 的描述是正确的，但是 K 不是常数，而是 N 的函数），因为可能需要 O(N) 时间才能找到合适的索引。您可以将其改进为二进制插入排序，但这将在 O(NlogN) 中运行（假设您使用的是链表，数组仍然需要 O(N^2 ） 即使进行了二进制优化），所以你还没有真正保存任何东西。

也许还值得一提的是一般原则；只要您处于比较模型中（即您没有关于您正在排序的数据的任何重要且有用的信息，这是一般情况），任何排序算法都将是最好的 O(NlogN)。即，该模型中排序算法的最坏情况运行时间为 omega(NlogN)。这不是一个假设，而是一个定理。因此不可能更快地找到任何东西（在相同的假设下）。