|
随机森林算法是对决策树算法的一种改进,简单地说,就是用随机方式建立一个森林,森林由很多棵决策树组成,每棵决策树单独进行预测,最终结果由森林中所有决策树的结果组合后决定(一般采用简单投票法)。随机森林的每一棵决策树之间相互没有关联,每棵决策树的建立依赖于一个独立采样的数据集。单个决策树的分类能力可以很弱,但是最后组合的结果通常很强。随机森林算法一般用于解决分类问题。但是对顶层的整合策略稍微加改造就可用于解决预测问题,如把投票法改为平均法等。 随机是随机森林算法的核心灵魂,森林只是一种简单的组合方式而已。随机性是为了保证各个基模型之间的相互独立,从而提升组合后的精度。随机森林算法包含数据随机和特征随机两层随机性。独立随机采样训练数据保证了每棵树学习到的数据侧重点不一样。随机选取特征(属性)有助于消除冗余特征,改善模型泛化能力。 随机森林算法的优点有:两层随机性的引入,使得算法不容易陷入过拟合,并且具有很好的抗噪声能力;具有天然的并行性,易于并行化实现,适用于大数据机器学习和挖掘;能够计算特征的重要性,可用于数据降维和特征选择。 随机森林算法的缺点有:结果的可解释性不如决策树算法;在大数据环境下,随着森林中树的增加,最后生成的规模可能过大,耗用内存较大。 【出处】鲍军鹏,张选平.人工智能导论(第2版),机械工业出版社,2021年1月.
|