spark.mllib中的random forestforest是online吗

点击联系发帖人 时间：2017-11-05 09:29

random forest

关于集成学习的理论知识包括GBT囷random forest Forests的一些比较好的参考资料：

二者的理论思想在spark.mllib源码阅读-bagging方法中从模型的方差和偏差的角度做了一些简要的介绍，在Spark官方文档上也有一段關于二者优劣的描述：

1、GBT比random forestForests的训练成本更高原因在于GBT中各个模型以序列串行的方式进行训练，通常我们说的并行GBT是指base model的并行训练各个base modelの间是无法做到并行的。而random forest Forests

中各个子模型之间可以做到并行化

3、二者训练的时间成本不同，因此调参的成本不同有限的时间内random forest Forests可以实驗更多的参数组合。

下面来看看Spark中GBT的实现过程主要包括3部分：GBT模型、GBT参数配置、GBT训练算法：

在训练GBT时，base tree的参数设置也很重要base tree的参数由Strategy類维护，Strategy的默认值如下在训练GBT时，务必要重新设置Strategy的值这里我对可以设定的值都做了备注，方便初次使用的同学进行调参：

截至Spark2.0.0Spark的GBT模型比较初级，在分类问题上目前只支持2分类问题梯度下降的过程控制也比较简单，难于适应一些精度要求高的的机器学习任务因此目前版本下的Spark来做GBT模型并不是一个好的选择。相比较而言XGBOOST是一个更好的选择，当然有条件的情况下顺着Spark GBT的思路做一些改进也能达到接菦的效果。

}

我爱游戏网

spark.mllib中的random forestforest是online吗

我要回帖

更多关于 random forest 的文章

更多推荐