用于在 Google 新闻中生成推荐的算法？

发布于 2024-08-30 05:49:10 字数 839 浏览 10 评论 0原文

我正在研究推荐引擎，我浏览了论文，它定义了如何Google 新闻基于协作过滤，向用户推荐他们可能感兴趣的新闻项目。

他们提到的一项有趣的技术是 Minhashing。我经历了它的作用，但我很确定我的想法很模糊，而且我很可能是错的。以下是我可以从中得出的结论：-

收集一组所有新闻项目。
为用户定义哈希函数。此哈希函数返回该用户查看的新闻项目中第一个项目的索引，该新闻项目在所有新闻项目列表中。
收集“n”个这样的值，并用该值列表代表用户。
根据这些列表之间的相似度计数，我们可以将用户之间的相似度计算为共同项目的数量。这样就减少了很多比较的次数。
根据这些相似性度量，将用户分组到不同的集群中。

我认为可能就是这样。在步骤 2 中，我们可能会改变哈希函数，使其返回不同元素的索引，而不是定义常量哈希函数。因此，一个哈希函数可以返回用户列表中第一个元素的索引，另一个哈希函数可以返回用户列表中第二个元素的索引，依此类推。因此，哈希函数的性质满足 minwise 独立排列条件，这听起来确实是一种可能的方法。

有人可以确认我的想法是否正确吗？或者 Google 新闻推荐的 minhashing 部分以其他方式发挥作用？我是建议内部实施的新手。非常感谢任何帮助。

谢谢！

原文