最相距的 k 个元素（聚类？）

发布于 2024-10-26 00:42:45 字数 475 浏览 7 评论 0原文

我有一个简单的机器学习问题：

我有 n (~110) 个元素，以及所有成对距离的矩阵。我想选择相距最远的 10 个元素。也就是说，我想要

Maximize:
  Choose 10 different elements.
  Return min distance over (all pairings within the 10).

我的距离度量是对称的并且尊重三角不等式。

我可以使用什么样的算法？我的第一反应是执行以下操作：

将 n 个元素聚类为 20 个集群。
将每个簇替换为该簇的元素是距平均元素最远原来的n.
使用蛮力来解决剩下20个的问题候选人。幸运的是，20选10是只有 184,756。

编辑：感谢 etarion 的富有洞察力的评论，将优化问题陈述中的“返回（距离）总和”更改为“返回最小距离”。

原文

I have a simple machine learning question:

I have n (~110) elements, and a matrix of all the pairwise distances. I would like to choose the 10 elements that are most far apart. That is, I want to

Maximize:
  Choose 10 different elements.
  Return min distance over (all pairings within the 10).

My distance metric is symmetric and respects the triangle inequality.

What kind of algorithm can I use? My first instinct is to do the following:

Cluster the n elements into 20
clusters.
Replace each cluster with just the
element of that cluster that is
furthest from the mean element of
the original n.
Use brute force to solve the
problem on the remaining 20
candidates. Luckily, 20 choose 10 is
only 184,756.

Edit: thanks to etarion's insightful comment, changed "Return sum of (distances)" to "Return min distance" in the optimization problem statement.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦里的微风 2024-11-02 00:42:47

好问题。

我不确定是否可以以有效的方式准确解决它，并且您基于集群的解决方案似乎是合理的。另一个值得关注的方向是局部搜索方法，例如模拟退火和爬山。

这是一个明显的基线，我将与任何其他解决方案进行比较：

重复 100 次：
贪婪地选择删除对目标函数影响最小的数据点并将其删除。

回复收藏 0 原文

爱给你人给你 2024-11-02 00:42:46

以下是如何通过采用凸松弛来解决这个组合优化问题。

令 D 为上三角矩阵，距离位于上三角上。即，我< j, D_i,j 是元素 i 和 j 之间的距离。（大概，对角线上也会有零。）

那么您的目标是最大化 x'*D*x，其中 x 是二进制值，其中 10 个元素设置为 1，其余元素设置为 0。（设置第 i 个元素）输入 x 到 1 类似于选择第 i 个元素作为 10 个元素之一。）处理

此类组合问题的“标准”凸优化是放宽约束，使得 x 不需要为离散值。这样做会给我们带来以下问题：

最大化 y'*D*y
服从： 0 <= y_i <= 1 对于所有 i，1'*y = 10

这是（道德上）一个二次规划。（如果我们将 D 替换为 D + D'，它将成为一个真正的二次规划，并且您得到的 y 应该没有什么不同。）您可以使用现成的 QP 求解器，或者只需将其插入到您选择的凸优化求解器（例如 cvx）。

您得到的 y 不一定是（也可能不会）二进制向量，但您可以通过多种方式将标量值转换为离散值。（最简单的可能是让 x 在 y_i 最高的 10 个条目中为 1，但您可能需要做一些更复杂的事情。）在任何情况下，y'*D*y 与您得到的 y 确实给出您为 x'*D*x 的最佳值设定了上限，因此，如果您从 y 构造的 x 的 x'*D*x 非常接近 y'*D*y，您会对您的近似值感到非常满意。

如果有任何不清楚的地方，无论是符号还是其他，请告诉我。

回复收藏 0 原文

~没有更多了~