使用 Mahout 进行持续协同过滤

发布于 2024-12-17 07:53:40 字数 474 浏览 0 评论 0原文

我正在评估 Mahout 作为协作过滤推荐引擎的过程。到目前为止看起来很棒。我们有来自 1200 万个不同用户的近 2000 万条布尔推荐。根据 Mahout 的 wiki 和 Sean Owen，在这种情况下一台机器就足够了。因此，我决定使用 MySql 作为数据模型，并暂时跳过使用 Hadoop 的开销。

但有一件事让我困惑，不断更新建议而不从头开始读取整个数据的最佳实践是什么？我们每天都会有数以万计的新推荐。虽然我不希望它被实时处理，但我希望每 15 分钟左右处理一次。

请详细说明基于Mysql和基于Hadoop的部署方法。谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

深空失忆 2024-12-24 07:53:40

任何数据库都太慢而无法实时查询，因此任何方法都涉及将数据集缓存在内存中，我假设您已经使用 ReloadFromJDBCDataModel 执行此操作。只需使用 refresh() 即可按照您喜欢的时间间隔重新加载。它应该在后台执行此操作。问题是，在从旧模型提供服务的同时，需要大量内存来加载新模型。您可以推出自己的解决方案，例如一次重新加载用户。

Hadoop 上不存在实时更新这样的东西。一般来说，最好的选择是使用 Hadoop 对结果进行完整且正确的批量计算，然后根据保存和提供建议的应用程序中的新数据在运行时（不完美地）调整它们。

回复收藏 0 原文

~没有更多了~