返回介绍

10 -- Random Forest

发布于 2025-01-20 23:27:28 字数 20793 浏览 0 评论 0 收藏 0

红色石头的个人网站: redstonewill.com

上节课我们主要介绍了 Decision Tree 模型。Decision Tree 算法的核心是通过递归的方式,将数据集不断进行切割,得到子分支,最终形成数的结构。C&RT 算法是决策树比较简单和常用的一种算法,其切割的标准是根据纯度来进行,每次切割都是为了让分支内部纯度最大。最终,决策树不同的分支得到不同的(即树的叶子,C&RT 算法中,是常数)。本节课将介绍随机森林(Random Forest)算法,它是我们之前介绍的 Bagging 和上节课介绍的 Decision Tree 的结合。

Random Forest Algorithm

首先我们来复习一下之前介绍过的两个机器学习模型:Bagging 和 Decision Tree。Bagging 是通过 bootstrap 的方式,从原始的数据集 D 中得到新的;然后再使用一些 base algorithm 对每个都得到相应的;最后将所有的通过投票 uniform 的形式组合成一个 G,G 即为我们最终得到的模型。Decision Tree 是通过递归形式,利用分支条件,将原始数据集 D 切割成一个个子树结构,长成一棵完整的树形结构。Decision Tree 最终得到的 G(x) 是由相应的分支条件 b(x) 和分支树递归组成。

Bagging 和 Decison Tree 算法各自有一个很重要的特点。Bagging 具有减少不同的方差 variance 的特点。这是因为 Bagging 采用投票的形式,将所有uniform 结合起来,起到了求平均的作用,从而降低 variance。而 Decision Tree 具有增大不同的方差 variance 的特点。这是因为 Decision Tree 每次切割的方式不同,而且分支包含的样本数在逐渐减少,所以它对不同的资料 D 会比较敏感一些,从而不同的 D 会得到比较大的 variance。

所以说,Bagging 能减小 variance,而 Decision Tree 能增大 variance。如果把两者结合起来,能否发挥各自的优势,起到优势互补的作用呢?这就是我们接下来将要讨论的 aggregation of aggregation,即使用 Bagging 的方式把众多的 Decision Tree 进行 uniform 结合起来。这种算法就叫做随机森林(Random Forest),它将完全长成的 C&RT 决策树通过 bagging 的形式结合起来,最终得到一个庞大的决策模型。

Random Forest 算法流程图如下所示:

Random Forest 算法的优点主要有三个。第一,不同决策树可以由不同主机并行训练生成,效率很高;第二,随机森林算法继承了 C&RT 的优点;第三,将所有的决策树通过 bagging 的形式结合起来,避免了单个决策树造成过拟合的问题。

以上是基本的 Random Forest 算法,我们再来看一下如何让 Random Forest 中决策树的结构更有多样性。Bagging 中,通过 bootstrap 的方法得到不同于 D 的 D’,使用这些随机抽取的资料得到不同的。除了随机抽取资料获得不同的方式之外,还有另外一种方法,就是随机抽取一部分特征。例如,原来有 100 个特征,现在只从中随机选取 30 个来构成决策树,那么每一轮得到的树都由不同的 30 个特征构成,每棵树都不一样。假设原来样本维度是 d,则只选择其中的 d’(d’小于 d)个维度来建立决策树结构。这类似是一种从 d 维到 d’维的特征转换,相当于是从高维到低维的投影,也就是说 d’维 z 空间其实就是 d 维 x 空间的一个随机子空间(subspace)。通常情况下,d’远小于 d,从而保证算法更有效率。Random Forest 算法的作者建议在构建 C&RT 每个分支 b(x) 的时候,都可以重新选择子特征来训练,从而得到更具有多样性的决策树。

所以说,这种增强的 Random Forest 算法增加了 random-subspace。

上面我们讲的是随机抽取特征,除此之外,还可以将现有的特征 x,通过数组 p 进行线性组合,来保持多样性:

这种方法使每次分支得到的不再是单一的子特征集合,而是子特征的线性组合(权重不为 1)。好比在二维平面上不止得到水平线和垂直线,也能得到各种斜线。这种做法使子特征选择更加多样性。值得注意的是,不同分支 i 下的是不同的,而且向量中大部分元素为零,因为我们选择的只是一部分特征,这是一种低维映射。

所以,这里的 Random Forest 算法又有增强,由原来的 random-subspace 变成了 random-combination。顺便提一下,这里的 random-combination 类似于 perceptron 模型。

Out-Of-Bag Estimate

上一部分我们已经介绍了 Random Forest 算法,而 Random Forest 算法重要的一点就是 Bagging。接下来将继续探讨 bagging 中的 bootstrap 机制到底蕴含了哪些可以为我们所用的东西。

通过 bootstrap 得到新的样本集 D’,再由 D’训练不同的。我们知道 D’中包含了原样本集 D 中的一些样本,但也有些样本没有涵盖进去。如下表所示,不同的下,红色的 表示在中没有这些样本。例如对来说,没有包含进去,对来说,没有包含进去,等等。每个中,红色 表示的样本被称为 out-of-bag(OOB) example。

首先,我们来计算 OOB 样本到底有多少。假设 bootstrap 的数量 N’=N,那么某个样本是 OOB 的概率是:

其中,e 是自然对数,N 是原样本集的数量。由上述推导可得,每个中,OOB 数目大约是,即大约有三分之一的样本没有在 bootstrap 中被抽到。

然后,我们将 OOB 与之前介绍的 Validation 进行对比:

在 Validation 表格中,蓝色的用来得到不同的,而红色的用来验证各自的没有交集,一般的数倍关系。再看左边的 OOB 表格,之前我们也介绍过,蓝色的部分用来得到不同的,而红色的部分是 OOB 样本。而我们刚刚也推导过,红色部分大约占 N 的。通过两个表格的比较,我们发现 OOB 样本类似于,那么是否能使用 OOB 样本来验证的好坏呢?答案是肯定的。但是,通常我们并不需要对单个进行验证。因为我们更关心的是由许多组合成的 G,即使表现不太好,只要 G 表现足够好就行了。那么问题就转化成了如何使用 OOB 来验证 G 的好坏。方法是先看每一个样本是哪些的 OOB 资料,然后计算其在这些上的表现,最后将所有样本的表现求平均即可。例如,样本的 OOB,则可以计算上的表现为:

这种做法我们并不陌生,就像是我们之前介绍过的 Leave-One-Out Cross Validation,每次只对一个样本进行的验证一样,只不过这里选择的是每个样本是哪些的 OOB,然后再分别进行的验证。每个样本都当成验证资料一次(与留一法相同),最后计算所有样本的平均表现:

估算的就是 G 的表现好坏。我们把称为 bagging 或者 Random Forest 的 self-validation。

这种 self-validation 相比于 validation 来说还有一个优点就是它不需要重复训练。如下图左边所示,在通过选择到表现最好的之后,还需要在组成的所有样本集 D 上重新对该模型训练一次,以得到最终的模型系数。但是 self-validation 在调整随机森林算法相关系数并得到最小的之后,就完成了整个模型的建立,无需重新训练模型。随机森林算法中,self-validation 在衡量 G 的表现上通常相当准确。

Feature Selection

如果样本资料特征过多,假如有 10000 个特征,而我们只想从中选取 300 个特征,这时候就需要舍弃部分特征。通常来说,需要移除的特征分为两类:一类是冗余特征,即特征出现重复,例如“年龄”和“生日”;另一类是不相关特征,例如疾病预测的时候引入的“保险状况”。这种从 d 维特征到 d’维特征的 subset-transform 称为 Feature Selection,最终使用这些 d’维的特征进行模型训练。

特征选择的优点是:

  • 提高效率,特征越少,模型越简单
  • 正则化,防止特征过多出现过拟合
  • 去除无关特征,保留相关性大的特征,解释性强

同时,特征选择的缺点是:

  • 筛选特征的计算量较大
  • 不同特征组合,也容易发生过拟合
  • 容易选到无关特征,解释性差

值得一提的是,在 decision tree 中,我们使用的 decision stump 切割方式也是一种 feature selection。

那么,如何对许多维特征进行筛选呢?我们可以通过计算出每个特征的重要性(即权重),然后再根据重要性的排序进行选择即可。

这种方法在线性模型中比较容易计算。因为线性模型的 score 是由每个特征经过加权求和而得到的,而加权系数的绝对值正好代表了对应特征的重要性为多少。越大,表示对应特征越重要,则该特征应该被选择。w 的值可以通过对已有的数据集建立线性模型而得到。

然而,对于非线性模型来说,因为不同特征可能是非线性交叉在一起的,所以计算每个特征的重要性就变得比较复杂和困难。例如,Random Forest 就是一个非线性模型,接下来,我们将讨论如何在 RF 下进行特征选择。

RF 中,特征选择的核心思想是 random test。random test 的做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要,所占的权重应该较大,不能用一个随机值替代。相反,如果随机值替代后的表现没有太大差别,则表明该特征不那么重要,可有可无。所以,通过比较某特征被随机值替代前后的表现,就能推断出该特征的权重和重要性。

那么 random test 中的随机值如何选择呢?通常有两种方法:一是使用 uniform 或者 gaussian 抽取随机值替换原特征;一是通过 permutation 的方式将原来的所有 N 个样本的第 i 个特征值重新打乱分布(相当于重新洗牌)。比较而言,第二种方法更加科学,保证了特征替代值与原特征的分布是近似的(只是重新洗牌而已)。这种方法叫做 permutation test(随机排序测试),即在计算第 i 个特征的重要性的时候,将 N 个样本的第 i 个特征重新洗牌,然后比较 D 和表现的差异性。如果差异很大,则表明第 i 个特征是重要的。

知道了 permutation test 的原理后,接下来要考虑的问题是如何衡量上图中的 performance,即替换前后的表现。显然,我们前面介绍过 performance 可以用来衡量。但是,对于 N 个样本的第 i 个特征值重新洗牌重置的,要对它进行重新训练,而且每个特征都要重复训练,然后再与原 D 的表现进行比较,过程非常繁琐。为了简化运算,RF 的作者提出了一种方法,就是把 permutation 的操作从原来的 training 上移到了 OOB validation 上去,记为。也就是说,在训练的时候仍然使用 D,但是在 OOB 验证的时候,将所有的 OOB 样本的第 i 个特征重新洗牌,验证 G 的表现。这种做法大大简化了计算复杂度,在 RF 的 feature selection 中应用广泛。

Random Forest in Action

最后,我们通过实际的例子来看一下 RF 的特点。首先,仍然是一个二元分类的例子。如下图所示,左边是一个 C&RT 树没有使用 bootstrap 得到的模型分类效果,其中不同特征之间进行了随机组合,所以有斜线作为分类线;中间是由 bootstrap(N’=N/2)后生成的一棵决策树组成的随机森林,图中加粗的点表示被 bootstrap 选中的点;右边是将一棵决策树进行 bagging 后的分类模型,效果与中间图是一样的,都是一棵树。

当 t=100,即选择了 100 棵树时,中间的模型是第 100 棵决策树构成的,还是只有一棵树;右边的模型是由 100 棵决策树 bagging 起来的,如下图所示:

当 t=200 时:

当 t=300 时:

当 t=400 时:

当 t=500 时:

当 t=600 时:

当 t=700 时:

当 t=800 时:

当 t=900 时:

当 t=1000 时:

随着树木个数的增加,我们发现,分界线越来越光滑而且得到了 large-margin-like boundary,类似于 SVM 一样的效果。也就是说,树木越多,分类器的置信区间越大。

然后,我们再来看一个比较复杂的例子,二维平面上分布着许多离散点,分界线形如 sin 函数。当只有一棵树的时候(t=1),下图左边表示单一树组成的 RF,右边表示所有树 bagging 组合起来构成的 RF。因为只有一棵树,所以左右两边效果一致。

当 t=6 时:

当 t=11 时:

当 t=16 时:

当 t=21 时:

可以看到,当 RF 由 21 棵树构成的时候,分界线就比较平滑了,而且它的边界比单一树构成的 RF 要 robust 得多,更加平滑和稳定。

最后,基于上面的例子,再让问题复杂一点:在平面上添加一些随机噪声。当 t=1 时,如下图所示:

当 t=6 时:

当 t=11 时:

当 t=16 时:

当 t=21 时:

从上图中,我们发现 21 棵树的时候,随机 noise 的影响基本上能够修正和消除。这种 bagging 投票的机制能够保证较好的降噪性,从而得到比较稳定的结果。

经过以上三个例子,我们发现 RF 中,树的个数越多,模型越稳定越能表现得好。在实际应用中,应该尽可能选择更多的树。值得一提的是,RF 的表现同时也与 random seed 有关,即随机的初始值也会影响 RF 的表现。

总结:

本节课主要介绍了 Random Forest 算法模型。RF 将 bagging 与 decision tree 结合起来,通过把众多的决策树组进行组合,构成森林的形式,利用投票机制让 G 表现最佳,分类模型更稳定。其中为了让 decision tree 的随机性更强一些,可以采用 randomly projected subspaces 操作,即将不同的 features 线性组合起来,从而进行各式各样的切割。同时,我们也介绍了可以使用 OOB 样本来进行 self-validation,然后可以使用 self-validation 来对每个特征进行 permutaion test,得到不同特征的重要性,从而进行 feature selection。总的来说,RF 算法能够得到比较平滑的边界,稳定性强,前提是有足够多的树。

注明:

文章中所有的图片均来自台湾大学林轩田《机器学习技法》课程

更多 AI 资源请关注公众号:AI 有道(ID:redstonewill)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文