如何在高维数据中高效找到k近邻？

发布于 2024-09-28 04:14:42 字数 225 浏览 16 评论 0原文

所以我有大约 16,000 个 75 维数据点，对于每个点，我想找到它的 k 个最近邻（使用欧几里德距离，当前 k=2，如果这使它更容易）

我的第一个想法是使用 kd 树来实现，但事实证明，随着维数的增加，它们的效率变得相当低下。在我的示例实现中，它仅比穷举搜索快一点。

我的下一个想法是使用 PCA（主成分分析）来减少维数，但我想知道：是否有一些聪明的算法或数据结构可以在合理的时间内准确解决这个问题？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冰之心 2024-10-05 04:14:42

kd-trees 的 Wikipedia 文章有一个指向 ANN 库的链接：

ANN 是一个用 C++ 编写的库，它
支持数据结构和
精确和精确的算法
近似最近邻搜索
在任意高的维度。
根据我们自己的经验，ANN
对于点来说执行效率相当高
集合的大小从数千到
数十万，并且在
尺寸高达 20。（对于明显更高的应用
尺寸，结果相当
参差不齐，但无论如何你都可以尝试一下。）

就算法/数据结构而言：

该库实现了许多
不同的数据结构，基于
kd-trees 和盒分解树，
并采用了几个不同的
搜索策略。

我会首先直接尝试它，如果这不能产生令人满意的结果，我会在应用 PCA/ICA 后将它与数据集一起使用（因为你不太可能最终得到足够少的维度来让 kd 树处理）。

回复收藏 0 原文

尸血腥色 2024-10-05 04:14:42

使用kd树

不幸的是，在高维中，这种数据结构严重遭受维数诅咒，这使得它的搜索时间与暴力搜索相当。

减少维度

降维是一种很好的方法，它提供了一个公平的权衡准确性和速度。当你减小维度时，你会丢失一些信息，但会获得一些速度。

我所说的准确性是指找到精确的最近邻（NN）。

当您想要减少数据所在的维度空间。

是否有一些聪明的算法或数据结构可以在合理的时间内准确地解决这个问题？

近似最近邻搜索 (ANNS)，您满意地找到一个可能的点不是精确的最近邻，而是它的一个很好的近似值（例如，当您正在寻找第一个 NN 时，这是查询的第四个 NN）。

这种方法会降低准确性，但会显着提高性能。而且，找到好的神经网络（足够接近查询）的概率相对较高。

您可以在我们的 kd-GeRaF 论文的简介中阅读有关 ANNS 的更多信息。

一个好主意是将 ANNS 与降维结合起来。

局部敏感哈希（LSH）是一种解决高度最近邻问题的现代方法方面。关键思想是彼此靠近的点被散列到同一个桶中。因此，当查询到达时，它将被散列到一个存储桶，其中该存储桶（通常及其邻近的存储桶）包含良好的 NN 候选者）。

FALCONN 是一个很好的 C++ 实现，它专注于余弦相似度。另一个很好的实现是我们的 DOLPHINN，这是一个更通用的库。

回复收藏 0 原文

两人的回忆 2024-10-05 04:14:42

您可以想象使用 Morton 代码，但如果有 75 个维度，它们将变得巨大。如果您只有 16,000 个数据点，则详尽搜索不会花费太长时间。

回复收藏 0 原文

温折酒 2024-10-05 04:14:42

没有理由相信这是 NP 完全的。你并没有真正优化任何东西，我很难弄清楚如何将其转换为另一个 NP 完全问题（我有 Garey 和 Johnson 在我的书架上，找不到类似的东西）。实际上，我只是追求更有效的搜索和排序方法。如果您有 n 个观测值，则必须预先计算 nxn 距离。然后，对于每个观察，您需要选出前 k 个最近邻居。距离计算为 n 平方，排序为 n log (n)，但您必须进行 n 次排序（每个 n 值都不同）。虽然很混乱，但仍然需要多项式时间才能得到答案。

回复收藏 0 原文