用于查找缺失属性的可扩展分类器

发布于 2024-09-08 16:13:52 字数 672 浏览 5 评论 0原文

我有一个很大的稀疏矩阵，表示数百万个实体的属性。例如，代表一个实体的一条记录可能具有属性“has(fur)”、“has(tail)”、“makesSound(meow)”和“is(cat)”。

然而，这个数据并不完整。例如，另一个实体可能具有典型“is(cat)”实体的所有属性，但它可能缺少“is(cat)”属性。在本例中，我想确定该实体应该具有“is(cat)”属性的概率。

所以我试图解决的问题是确定每个实体应该包含哪些缺失的属性。给定任意记录，我想找到前 N 个最有可能缺失但应包含的属性。我不确定此类问题的正式名称是什么，因此我不确定在研究当前解决方案时要搜索什么。对于此类问题是否有可扩展的解决方案？

我的第一个方法是简单地计算每个缺失属性的条件概率（例如 P(is(cat)|has(fur) 和 has(tail) and ... ）），但这似乎是一个非常慢的方法。另外，根据我对条件概率的传统计算的理解，我想我会遇到问题，其中我的实体包含一些与其他 is(cat) 实体不常见的不寻常属性，导致条件概率为零。

我的第二个想法是为每个属性训练一个最大熵分类器，然后根据实体当前的属性对其进行评估。我认为概率计算会更加灵活，但这仍然存在可扩展性问题，因为我必须为潜在的数百万个属性训练单独的分类器。此外，如果我想找到最有可能包含的前 N 个属性，我仍然需要评估所有分类器，这可能需要很长时间。

有更好的解决方案吗？

原文

分享到QQ

分享到微博