如何仅在集合 A 中而不是在集合 B 中查找不同的 URL

发布于 2024-09-25 11:32:56 字数 184 浏览 13 评论 0原文

有两组URL，均包含数百万个URL。现在，我如何从 A 获取 B 中没有的 URL。最好的方法是什么？
注意：您可以使用任何技术，使用任何工具，例如数据库、mapreduce、hashcode 等。我们应该考虑内存效率、时间效率。您必须考虑到每个集合（A 和 B）都有数百万个 URL。我们应该尝试使用更少的内存和更少的时间来找到特定的 URL。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

撧情箌佬 2024-10-02 11:32:56

一个不错的算法可能是：

将集合 A 的所有内容加载到哈希图中，O(a)

遍历集合 B，并且对于每个项目，从集合 A（从哈希映射）中删除相同的值（如果存在），O(b)

然后你的hashmap 有结果。这将是 O(a+b)，其中 a 是集合 A 的大小，b 是集合 B 的大小。（实际上，这将乘以哈希时间，理想情况下，对于良好的哈希来说，这大约相当于 O(1) .)

回复收藏 0 原文

茶色山野 2024-10-02 11:32:56

可能有点幼稚的过程可能是像对

列表 A 排序
对列表 B
将列表 A 和 B 一起导航这样的过程：
a.当元素匹配时增加指向 A 的指针并增加指向 B 的指针
b.递增指向 B 的指针，直到该元素与 a 中的下一个元素匹配，或者直到 B 中的记录 b 出现在 a 中的下一个元素之后>a（此规则丢弃 B 中不在 A 中的元素）
c.根据这些规则递增时发现匹配，使得 B 中的下一个元素 b 与 B 中的下一个元素 a 不匹配>A.