当前位置：文江博客话题详情

寻找进行大规模集合比较的最佳工具

发布于 2024-12-03 16:41:48 字数 1539 浏览 3 评论 0 原文

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not meet Stack Overflow guidelines. It is not currently accepting answers.

我们不允许提出寻求软件库、教程、工具、书籍或其他场外资源推荐的问题。您可以编辑问题，以便用事实和引文来回答。

9 年前已关闭。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谎言 2024-12-10 16:41:48

我不知道你到底在寻找什么：方法、库、工具？

如果您想通过分布式计算快速计算大型数据集，您应该查看 MapReduce，例如在 Hadoop ="nofollow">亚马逊 EC2/S3服务。

回复收藏 0 原文

十年不长 2024-12-10 16:41:48

Lucene 可以轻松扩展以满足您的需要。 Solr 可能会更容易设置，而 hadoop 对于只有几百万个数据点来说很可能是多余的。

您需要考虑的是您想要使用“如何相交”的定义。如果所有集合都具有相同的大小，我认为这很容易，但杰卡德距离在其他情况下可能更有意义； Lucene 的默认评分通常也不错。

我的建议是：尝试在本地工作站上运行默认的 Solr 实例（这是一种点击并运行 jar 类型的交易）。您很快就会知道 Solr/Lucene 是否适合您，或者您是否必须通过 Hadoop 等自定义代码。

回复收藏 0 原文

~没有更多了~

关于作者

最美的太阳

暂无简介

文章

26 人气

关注发私信

忆悲凉

文章 0 评论 0

关注

hgfg1645

文章 0 评论 0

关注

qq_qLPLYi

文章 0 评论 0

关注

戏舞

文章 0 评论 0

关注

殊姿

文章 0 评论 0

关注

﹂绝世的画

文章 0 评论 0

友情链接

文江博客

寻找进行大规模集合比较的最佳工具

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者