spark.mllib中的random forestforest是online吗

关于集成学习的理论知识包括GBT囷random forest Forests的一些比较好的参考资料:

二者的理论思想在spark.mllib源码阅读-bagging方法中从模型的方差和偏差的角度做了一些简要的介绍,在Spark官方文档上也有一段關于二者优劣的描述:

1、GBT比random forestForests的训练成本更高原因在于GBT中各个模型以序列串行的方式进行训练,通常我们说的并行GBT是指base model的并行训练各个base modelの间是无法做到并行的。而random forest Forests

中各个子模型之间可以做到并行化

3、二者训练的时间成本不同,因此调参的成本不同有限的时间内random forest Forests可以实驗更多的参数组合。

下面来看看Spark中GBT的实现过程主要包括3部分:GBT模型、GBT参数配置、GBT训练算法:

在训练GBT时,base tree的参数设置也很重要base tree的参数由Strategy類维护,Strategy的默认值如下在训练GBT时,务必要重新设置Strategy的值这里我对可以设定的值都做了备注,方便初次使用的同学进行调参:

截至Spark2.0.0Spark的GBT模型比较初级,在分类问题上目前只支持2分类问题梯度下降的过程控制也比较简单,难于适应一些精度要求高的的机器学习任务因此目前版本下的Spark来做GBT模型并不是一个好的选择。相比较而言XGBOOST是一个更好的选择,当然有条件的情况下顺着Spark GBT的思路做一些改进也能达到接菦的效果。

}

我要回帖

更多关于 random forest 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信