当前位置：文江博客话题详情

预排序分析算法？

发布于 2024-08-14 09:01:31 字数 178 浏览 10 评论 0原文

快速排序有一个众所周知的问题，即当数据集处于或几乎处于排序顺序时，性能会严重下降。在这种情况下，通常速度很慢的插入排序显然是最佳选择。问题是知道何时使用哪个。

是否有一种算法可用于运行数据集、应用比较因子并返回有关数据集与排序顺序的接近程度的报告？我更喜欢 Delphi/Pascal，但如果示例不太复杂，我可以阅读其他语言。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

笨死的猪 2024-08-21 09:01:31

正如你所预料的那样，这里面有很多想法。三中位数技术意味着快速排序的最坏情况行为不会发生在已排序的数据上，而是发生在不太明显的情况下。

Introsort 非常令人兴奋，因为它完全避免了快速排序的二次最坏情况。它不是您自然的问题“我如何检测数据几乎已排序”，而是实际上在进行过程中问自己“这是否花费了太长时间？”。如果答案是肯定的，它将从快速排序切换到堆排序。

Timsort 将归并排序与插入排序相结合，在排序或逆序数据上表现良好，并且包含已排序或反向排序子集的数据。

因此，您的问题的答案可能是，“您不需要预传递分析，您需要自适应排序算法”。

回复收藏 0 原文

稚然 2024-08-21 09:01:31

还有 SmoothSort，它的实现显然相当棘手，但它在 O(N log N) 到 O(N) 之间变化，具体取决于数据开始的排序方式。

http://en.wikipedia.org/wiki/Smoothsort

长而棘手的 PDF：
http://www.cs.utexas.edu/users/EWD/ ewd07xx/EWD796a.PDF

但是，如果您的数据确实很大并且您必须串行访问它，那么归并排序可能是最好的选择。它总是 O(N log N) 并且具有出色的“局部性”属性。

回复收藏 0 原文

甜｀诱少女 2024-08-21 09:01:31

我没有听说过任何预排序分析，但我的观点是，如果您要遍历数据集进行分析，那么您已经降低了整体排序时间的性能。

回复收藏 0 原文

难忘№最初的完美 2024-08-21 09:01:31

一种可能的解决方案是获取当前排序范围（在快速排序操作期间）中的第一个、最后一个和中间元素，并选择中间的元素作为基准元素。

回复收藏 0 原文

唔猫 2024-08-21 09:01:31

为了充分分析以决定使用哪种算法，您将几乎完成排序工作。您可以执行一些操作，例如以小比例随机但递增的索引检查值（即分析项目的小样本）。

回复收藏 0 原文

软糯酥胸 2024-08-21 09:01:31

您仍然需要遍历所有记录以确定其是否已排序，因此为了提高性能，请从第一个记录开始，然后遍历其余记录，直到您发现某些内容未正确排序，或者到达列表末尾。如果您发现未命中，则仅对从该位置到末尾的项目进行排序（因为列表的开头已经排序）。

在第二部分的每个项目中，查看该项目是否 <比第一部分中的最后一个元素更重要，如果是这样，则仅对第一部分使用插入排序。否则，针对第二部分中的所有其他项目进行快速排序。这样，排序就针对特定情况进行了优化。

回复收藏 0 原文

红衣飘飘貌似仙 2024-08-21 09:01:31

只有当数据集很大并且已经大部分排序时，快速排序才会出现问题，我会使用以下启发式方法（等待完整的解决方案）：

如果数据集大小低于阈值，请不要打扰。
如果您可以快速（索引）访问记录（项目），请抽取每 N 条记录中 1 条记录的样本，并查看它们是否已排序。对于小样本来说应该足够快，然后您可以决定是否使用快速排序。

回复收藏 0 原文

胡大本事 2024-08-21 09:01:31

提出一个人们尚未提出的概念观点：快速排序是一种常识性的分治算法，在极少数情况下存在明显的错误。假设您要对一堆学生论文进行排序。（这与一些规律有关。）在快速排序算法中，您选择一些纸张，即枢轴。然后根据其他论文是在枢轴之前还是之后进行划分。然后对两个子桩重复此操作。有什么错误？枢轴可以是靠近列表一端而不是中间的名称，因此将其分成两堆并没有多大作用。

合并排序是另一种以不同顺序工作的分而治之算法。您可以在线性时间内合并两个排序列表。将论文分成相等或几乎相等的两堆，然后对每一堆进行递归排序，然后合并。归并排序没有任何错误。快速排序比合并排序更受欢迎的原因之一是历史性的：快速排序速度很快（通常）并且不需要任何额外的内存。但如今，保存比较比节省内存更重要，并且实际的重新排列通常是通过排列指针来抽象的。如果事情一直都是这样，那么我怀疑合并排序会比快速排序更流行。（也许在名字中添加“快速”是很好的推销技巧。）

回复收藏 0 原文

~没有更多了~