当前位置：文江博客话题详情

查找 KD 树中所有节点的 KNN 的有效方法

发布于 2024-08-26 21:09:26 字数 334 浏览 19 评论 0原文

我目前正在尝试找到平衡 KD 树（K=2）的所有节点的 K 最近邻。

我的实现是 Wikipedia 文章中代码的变体，并且找到 KNN 的速度相当快任何节点O(log N)。

问题在于我需要找到每个节点的KNN。想出大约O(N log N)如果我迭代每个节点并执行搜索。

有更有效的方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

攀登最高峰 2024-09-02 21:09:27

我使用覆盖树来解决这个问题。这是链接： http://hunch.net/~jl/projects/cover_tree/ cover_tree.html

在50M大小的数据集中（全部为kNN查询，k=100），覆盖树的创建时间为5.5秒，查询时间为120秒。 Ann lib 创建树花费了 3.3 秒，查询花费了 138 秒。

更新：最近邻居不是对称关系。考虑一下：A(0,0) B(1,0) C(3,0)。 B 是 C 最近的，而 C 不是 B 最近的

回复收藏 0 原文

自演自醉 2024-09-02 21:09:27

如果节点本身是查询点，那么搜索时间可能会更低。您可以从回溯阶段开始，并且测试的第一个节点已经在查询点附近。然后很快就可以修剪大面积的树。

最近邻居是对称关系（如果 n1 是 n2 的最近邻居，则同样适用于 n2），因此您只需要搜索一半节点，跳过所有已标记为最近邻居的节点。只是一个想法。

您还可以尝试 KD-Tree BBF（Best-Bin First）搜索，这将帮助您更快地搜索最近的节点（bin）。我已经用 C# 实现了这个，所以如果您对源代码感兴趣，请写信给我。

当然，实际运行时间取决于数据集中的维数、KD 树结构和点的分布。

点的聚类也可能是合适的。

回复收藏 0 原文

A君 2024-09-02 21:09:27

要搜索的术语是knn join。更准确地说，您可能想要进行自连接。

也许这些搜索结果有帮助：

http://scholar.google.com/scholar ?q=kd-tree+knn+join

我只见过 R* 树的 knn 连接算法。然而，在我自己的实验中，它们无法胜过重复查询。我可能会遗漏一些实现想法。但一般来说，为树连接适当地保存数据比单个 knn 查询要棘手得多。

回复收藏 0 原文

末蓝 2024-09-02 21:09:26

根据您的需要，您可能想要尝试近似的技术。有关详细信息，请查看 Arya 和 Mount 关于该主题的工作。关键论文位于此处。 BigO 复杂性的详细信息位于他们的 '98 论文中。

该作品的图解如下所示：

alt text

^{来源：http://www.cs.umd.edu/~mount/ANN/Images/annspeckle.gif}

我已经在包含数十万个元素的高维数据集上使用了他们的库。它比我发现的任何其他东西都快。该库可以处理精确搜索和近似搜索。该软件包包含一些 CLI 实用程序，您可以使用它们轻松地试验数据集；甚至可视化 kd 树（见上文）。

FWIW：我使用了 R 绑定。

来自 ANN 手册：

...艾莉亚和芒特已经展示过
[AM93b] 和 Arya 等人。 [AMN+98] 那
如果用户愿意容忍
搜索中存在少量错误
（返回一个可能不是
最近的邻居，但不是
明显远离
查询点比真实的最近
邻居）那么有可能
取得重大改进
运行时间。 ANN 是一个系统
回答最近邻查询
精确和近似。

回复收藏 0 原文

~没有更多了~

关于作者

优雅的叶子

暂无简介

文章

27 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

查找 KD 树中所有节点的 KNN 的有效方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签