2.4 二分类和多分类
我们看到的第一个分类器,阈值分类器,是一个简单的二类分类器(由于数据点不是高于阈值就是低于阈值,所以分类结果不是第一个类,就是第二个类)。我们用的第二个分类器,最邻近分类器,天然就是一个多类分类器(它的输出可以是多个类别中的一个)。
构建一个二分类方法通常要比构建一个解决多分类问题的方法更加简单。然而,我们可以将多分类问题细化成一系列二分决策。这就是之前我们在Iris数据集上顺带做出的;我们观察到,将原始类别中的一个类别分离出来很容易,我们需要专注于另外两个类别的区分,而这些可以退化成几个二分类决策。
它是山鸢尾花(Iris Setosa)品种吗(是或否)?
如果不是,那看它是否是维吉尼亚鸢尾花(Iris Virginica)品种(是或否)。
当然,我们希望把这类推理留给计算机。像往常一样,对于多类别的细化,有几种解决方案。
最简单的方法就是使用一系列的“一对多分类器”。对于每个可能的标签l,我们分别构建一个分类器,判断样本的标签“是l还是其他?”。当我们使用这个规则时,恰好其中一个分类器说“是”,那么我们的问题就得到了解决。不巧的是,这种情况并不总会发生,所以我们必须确定如何处理多个正类别的结果或多个负类别的结果。
作为另外一种选择,我们还可以构建一个分类树。将每一个可能的标签分成两段,然后构建一个分类器判断“样本应该向左走还是向右走”。我们可以对标签递归地切分,直到得到一个单一标签。前面这幅图描绘了对Iris数据集用树进行推理的过程。每个菱形代表一个二类分类器。很容易想象到,我们可以把树扩展得更大,包含更多的判断条件。这意味着任何用于二分类问题的分类器都很容易处理任意个类别的多分类问题。
还有很多其他方法可以将一个二分类方法变为多分类方法。但并没有某一个方法在所有情况下都比其他方法明显好。不过,一般来说无论用哪一个,最终效果都不会差距太大。
大多数分类器都是二分类系统,而很多现实问题天然就是多类别的。通过一些简单方法,我们可以把多分类问题细化成一系列二分类决策,在多分类问题中使用二分类模型。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论