如何计算聚类中的精度和召回率？

发布于 2024-07-15 10:04:28 字数 780 浏览 11 评论 0原文

我真的很困惑如何在聚类应用程序中计算精度和召回率。

我遇到以下情况：

给定两个集合 A 和 B。通过为每个元素使用唯一键，我可以确定 A 和 B 中的哪些元素匹配。我想根据功能对这些元素进行聚类（当然不使用唯一键）。

我正在进行聚类，但我不确定如何计算精度和召回率。公式，根据论文“Extended Performance Graphs for Cluster Retrieval”（http ://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf）是：

p = 精度 = 相关检索项目/检索项目和 r = 召回 = 相关检索项目/相关项目

我真的不知道哪些元素属于哪个类别。

到目前为止我所做的是，我在集群中检查了我有多少匹配对（使用唯一键）。这已经是精确度或召回率之一了吗？如果是的话，它是哪一个以及我如何计算另一个？

更新：我刚刚在 http://mtg.upf.edu/files/publications/unsuperf.pdf。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情愿 2024-07-22 10:04:28

我想您会发现维基百科有一篇有用的关于精确度和召回率的文章。简而言之：

精确率 = 真阳性 /（真阳性 + 假阳性）

召回率 = 真阳性 /（真阳性 + 假阴性）

回复收藏 0 原文

咋地 2024-07-22 10:04:28

在访问聚类方法的一些研究中，我一直在使用其他几种聚类有效性度量。如果您有一个标有类别（监督聚类）的数据集，您可以使用上面提到的精度和召回率，或者纯度和熵。

簇的纯度 = 最频繁的类出现的次数 / 簇的大小（这应该很高）

簇的熵 = 簇中类的分散程度的度量（这应该很低

）你没有类标签（无监督聚类），内部和内部相似性是很好的衡量标准。

单个簇的簇内相似度 = 簇内所有对的平均余弦相似度（这应该很高）

单个簇的簇间相似度 = 一个簇中所有项目与每个其他簇中所有项目相比的平均余弦 sim （这应该很低）

本文对所有这四种措施都有一些很好的描述。
http://glaros.dtc.umn.edu/gkhome/fetch/papers /edcICAIL05.pdf

与无监督 F 测量的良好链接，我现在正在研究它。

回复收藏 0 原文

゛时过境迁 2024-07-22 10:04:28

我对这个问题的理解是：

集合 A 和 B 之一是“正”集合。假设 A 为正

，假设对于簇中 A 的元素，

B 的匹配元素位于同一簇中。这是B的真正正
匹配元素不在同一簇中。这是假阴性
B 的不匹配元素在同一簇中，误报
。 is 是B 不在同一簇中的非匹配元素。这是真负数。

然后只需使用

精度=真阳性/（真阳性+假阳性）

召回率=真阳性/（真阳性+假阴性）
正如有人提到的

回复收藏 0 原文

再可℃爱ぅ一点好了 2024-07-22 10:04:28

有关评估聚类算法的方法，请参阅“信息检索简介”第 18 章（胖聚类）。
http://nlp.stanford.edu/IR- book/html/htmledition/flat-clustering-1.html

本书的这一部分也可能很有用，因为它讨论了精度和召回率等指标：
http://nlp. stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

回复收藏 0 原文

迷鸟归林 2024-07-22 10:04:28

精确度和召回率的问题在于，它们通常要求您了解“真实”标签是什么，而在许多情况下（在您的描述中）您不知道标签，但您知道分区进行比较。我建议调整后的兰德指数也许：

http://en.wikipedia。 org/wiki/Rand_index

回复收藏 0 原文

允世 2024-07-22 10:04:28

我觉得你的定义有问题。

精确率和召回率适用于分类问题，分类问题基本上是二聚类问题。如果您聚集成“好项目”（=检索到的项目）和“坏项目”（=未检索到的项目）之类的东西，那么您的定义就有意义了。

在您的情况下，您计算了所有项目中正确聚类的百分比，这有点像精度，但实际上并非如此，因为正如我所说，定义不适用。

回复收藏 0 原文

稚然 2024-07-22 10:04:28

如果您将其中一组（例如 A）视为黄金聚类，将另一组 (B) 视为聚类过程的输出，则（精确）精度和召回值可估计为：

精度=（A和B共有的元素数量）/（B中的元素数量）
召回率=（A和B共有的元素数量）/（A中的元素数量）

从这些标准 F 度量也可以估计出来。

回复收藏 0 原文

~没有更多了~

关于作者

蓝梦月影

暂无简介

文章

26 人气

关注发私信

牛↙奶布丁

文章 0 评论 0

关注

COSO

文章 0 评论 0

关注

落叶

文章 0 评论 0

关注

暗地喜欢

文章 0 评论 0

关注

qq_i8qOEG

文章 0 评论 0

关注

qq_Wl4Sbi

文章 0 评论 0

友情链接

文江博客

如何计算聚类中的精度和召回率？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签