数据词典：随机森林算法（Random Forest Algorithm）

赵老师 · 发表于 2025-12-7 18:01:57

随机森林算法是对决策树算法的一种改进，简单地说，就是用随机方式建立一个森林，森林由很多棵决策树组成，每棵决策树单独进行预测，最终结果由森林中所有决策树的结果组合后决定（一般采用简单投票法）。随机森林的每一棵决策树之间相互没有关联，每棵决策树的建立依赖于一个独立采样的数据集。单个决策树的分类能力可以很弱，但是最后组合的结果通常很强。随机森林算法一般用于解决分类问题。但是对顶层的整合策略稍微加改造就可用于解决预测问题，如把投票法改为平均法等。

随机是随机森林算法的核心灵魂，森林只是一种简单的组合方式而已。随机性是为了保证各个基模型之间的相互独立，从而提升组合后的精度。随机森林算法包含数据随机和特征随机两层随机性。独立随机采样训练数据保证了每棵树学习到的数据侧重点不一样。随机选取特征（属性）有助于消除冗余特征，改善模型泛化能力。

随机森林算法的优点有：两层随机性的引入，使得算法不容易陷入过拟合，并且具有很好的抗噪声能力；具有天然的并行性，易于并行化实现，适用于大数据机器学习和挖掘；能够计算特征的重要性，可用于数据降维和特征选择。

随机森林算法的缺点有：结果的可解释性不如决策树算法；在大数据环境下，随着森林中树的增加，最后生成的规模可能过大，耗用内存较大。

【出处】鲍军鹏,张选平.人工智能导论（第2版）,机械工业出版社,2021年1月.

		自动登录	找回密码
密码			立即注册

数据词典：随机森林算法（Random Forest Algorithm）

浏览过的版块