机器学习平台的选择

发布于 2024-10-14 17:39:51 字数 225 浏览 9 评论 0原文

我有一组用户及其贷款偿还指标（他们花了多长时间，分期付款多少等）。现在我想分析用户过去的贷款历史并说，“如果我们借给他们X，他们很可能会在Z天内偿还Y期分期付款”

这是我的看法

该算法是一种聚类算法，根据还款对所有用户进行分组习惯
我想使用 SOM 或 K-Means

所以我的问题是，哪些平台适合这个？到目前为止我已经看过 Mahout 了。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一指流沙 2024-10-21 17:39:51

非常值得一看 Weka - 它是一个相当成熟的开源工具包许多机器学习算法，包括聚类。

回复收藏 0 原文

风吹短裙飘 2024-10-21 17:39:51

快速矿工
- 免费提供社区版
- 便于使用
- 漂亮的可视化

http://rapid-i.com/content/view/181/190 /

回复收藏 0 原文

め七分饶幸 2024-10-21 17:39:51

另一个不错的库是 scikits.learn，这是一个为 Python 程序员提供的机器学习库。

回复收藏 0 原文

蹲墙角沉默 2024-10-21 17:39:51

关于这个主题有一本很棒的书 - Toby Segaran 的“集体智能编程”。它讨论了不同的机器学习算法、聚类等。还包括有用的库和示例代码的链接。

回复收藏 0 原文

天涯沦落人 2024-10-21 17:39:51

为什么要聚类？它看起来不像聚类问题。您可以将聚类分析作为预处理阶段来区分几组用户（或者您可以省略此阶段），但随后您需要进行某种数字预测：两者 - 分期付款和天数计数 -是数字，那么如何通过聚类获得这些数字呢？

我建议您使用回归来完成此任务。线性回归必须满足您的需求。如果因变量（分期付款数和天数）非线性地依赖于其他属性，您可以尝试多项式回归，甚至像 M5' 这样的算法，首先构建决策树，然后向每个叶子添加回归模型那棵树的。

如果您有非数字属性，您还可以尝试使用分类 - 在这种情况下，您需要手动创建可能的类别（例如分期付款数：从 3 到 5、从 6 到 10 等） .），然后使用任何分类算法（C4.5、SVM、朴素贝叶斯等）。

事实上，我认为你没有大量数据。我相信如果总体小于 50Mb，那么就没有必要使用像 Mahout 这样的怪物，它们被设计用来处理非常非常大的数据量。您可以使用 Weka 或 RapidMiner 用于此目的。即使他们无法使用默认配置处理您的数据，只需增加 JVM 的内存，在 99% 的情况下就可以了。