是否有监督学习算法以标签作为输入，并产生概率作为输出？

发布于 2024-11-03 11:29:31 字数 437 浏览 4 评论 0原文

假设我想确定我对 SO 问题投票的概率，仅基于哪些标签存在或不存在。

我们还假设我有大量关于我过去投票或未投票的问题的数据。

是否有一种机器学习算法可以获取这些历史数据，对其进行训练，然后能够预测我对未来问题的投票概率？请注意，它必须是概率，而不仅仅是某个任意分数。

我们假设与任何给定问题相关的标签最多有 7 个，这些标签是从数万个超集中抽取的。

我希望它能够在标签之间建立相当复杂的连接，而不是每个标签只是以“线性”方式对最终结果做出贡献（就像贝叶斯垃圾邮件过滤器中的单词一样）。

例如，“java”这个词可能会增加我的赞成票概率，除非它与“数据库”一起出现，但是当“数据库”与“ruby”一起出现时，可能会增加我的赞成票概率。

哦，它应该在计算上是合理的（在一两个小时内对数百万个问题进行训练）。

我应该在这里研究什么方法？

需要登录才能够评论，你可以免费注册一个本站的账号。

半世晨晓 2024-11-10 11:29:31

鉴于每条消息可能没有很多标签，您可以只创建“n-gram”标签并应用朴素贝叶斯。回归树还会在叶节点产生经验概率，使用 +1 表示赞成，使用 0 表示不赞成。请参阅http://www.stat.cmu.edu/~ cshalizi/350-2006/lecture-10.pdf 一些可读的讲义和 http:// /sites.google.com/site/rtranking/ 用于开源实现。