协作过滤程序：当没有足够的数据时如何获取 Pearson 分数

发布于 2024-08-14 18:23:59 字数 299 浏览 9 评论 0原文

我正在使用协作过滤构建推荐引擎。对于相似性分数，我使用皮尔逊相关性。这在大多数情况下都很棒，但有时我的用户只共享 1 个或 2 个字段。例如：

User 1{
a: 4
b: 2
}

User 2{
a: 4
b: 3
}

由于这只有 2 个数据点，因此 Pearson 相关性始终为 1（直线或完美相关性）。这显然不是我想要的，那么我应该使用什么值呢？我可以丢弃所有这样的实例（给出相关性为 0），但我的数据现在非常稀疏，我不想丢失任何东西。是否有任何相似性分数可以与我的其他相似性分数（所有皮尔逊分数）相匹配？

原文

I'm building a recommendation engine using collaborative filtering. For similarity scores, I use a Pearson correlation. This is great most of the time, but sometimes I have users that only share a 1 or 2 fields. For example:

User 1{
a: 4
b: 2
}

User 2{
a: 4
b: 3
}

Since this is only 2 data points, a Pearson correlation would always be 1 (a straight line or perfect correlation). This obviously isn't what I want, so what value should I use instead? I could just throw away all instances like this (give a correlation of 0), but my data is really sparse right now and I don't want to lose anything. Is there any similarity score I could use that would fit in with the rest of my similarity scores (all Pearson)?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

时光匆匆的小流年 2024-08-21 18:23:59

~~您可能需要考虑使用余弦相似度而不是皮尔逊相关性。它不会遇到这个问题，并且在推荐系统文献中被广泛使用。~~

Herlocker 等人描述的规范解决方案。在“基于邻域的协同过滤算法中的设计选择的实证分析”中，目的是“抑制”皮尔逊相关性，以纠正具有较小共同评分集的用户之间过高的相关性。基本上，您可以将 Pearson 相关性乘以 1 和 cc/50 中的较小者，其中 cc 是两个用户评分的项目数。结果是，如果它们至少有 50 个共同点，则相似度是原始 Pearson 相似度；否则，它会随着它们共有的评分项目的数量线性缩放。它将虚假相关性 1 转变为相似度 0.02。

50 可能需要根据您的域和系统进行调整。

您还可以使用余弦相似度，它不会以同样的方式受到此限制。 ~~对于用户-用户 CF，通常首选 Pearson 相关性。~~

更新：在最近的工作中，我们发现对于基于用户的 CF 来说，余弦相似度被过早地忽略了。余弦相似度，当对标准化数据执行时（在计算余弦相似度之前从每个评分中减去用户的平均值——结果与帕森相关性非常相似，除了它有一个内置的自阻尼项），在以下方面优于皮尔逊相关性： “标准”环境。当然，如果可能的话，您应该对自己的数据和环境进行一些测试，看看哪种效果最好。论文在这里：http://grouplens.org/node/479

免责声明：我是以下专业的学生生产上述赫洛克论文的实验室。