当前位置：文江博客话题详情

计算大数组中的唯一元素

发布于 2024-10-16 04:47:00 字数 291 浏览 4 评论 0原文

我的一位同事在接受采访时被问到这个问题。

给定一个存储 unsigned int 的巨大数组。数组的长度为 100000000。找到计算数组中存在的唯一元素数量的有效方法。

例如 arr = {2,34,5,6,7,2,2,5,1,34,5}

O/p: 2 的计数是 3，34 的计数是 2 等等在。

有哪些有效的算法可以做到这一点？我一开始认为字典/哈希将是选项之一，但由于数组非常大，因此效率低下。有什么办法可以做到这一点吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鸢与 2024-10-23 04:47:00

堆排序是 O(nlogn) 且就地排序。处理大型数据集时，就地处理是必要的。排序后，您可以遍历数组来计算每个值的出现次数。因为数组是排序的，所以一旦值发生更改，您就知道您已经看到了前一个值的所有出现位置。

回复收藏 0 原文

裸钻 2024-10-23 04:47:00

许多其他发帖者建议对数据进行排序，然后查找相邻值的数量，但没有人提到使用基数排序来使运行时间为 O(n lg U) （其中 U 是数组中的最大值）的 O(nlgn)。由于 lg U = O(lg n)，假设整数占用一个机器字，这种方法渐近地比堆排序快。

在面试中，不进行比较总是很有趣。 :-)

回复收藏 0 原文

如梦初醒的夏天 2024-10-23 04:47:00

将其排序，然后从头开始扫描以确定每个项目的计数。

这种方法不需要额外的存储，并且可以在 O(n log n) 时间内完成（对于排序）。

回复收藏 0 原文

霓裳挽歌倾城醉 2024-10-23 04:47:00

如果 int 值的范围有限，那么您可以分配一个数组，该数组用于计算每个可能值的出现次数。然后你只需迭代你的巨大数组并增加计数器。

foreach x in huge_array {
   counter[x]++;
}

因此，您可以在线性时间 (O(n)) 内找到解决方案，但会消耗内存。也就是说，如果你的整数跨越了 32 位整数允许的整个范围，你将需要分配一个 4G 整数的数组，这是不切实际的......

If the range of the int values is limited, then you may allocate an array, which serves to count the occurrences for each possible value. Then you just iterate through your huge array and increment the counters.

foreach x in huge_array {
   counter[x]++;
}

Thus you find the solution in linear time (O(n)), but at the expense of memory consumption. That is, if your ints span the whole range allowed by 32-bit ints, you would need to allocate an array of 4G ints, which is impractical...

回复收藏 0 原文