|
强化学习也称为增强学习、加强学习或再励学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。AlphaGo围棋软件能够战胜人类冠军的一个重要因素就是使用了强化学习算法来进行训练。AlphaGo的升级版本AlphaZero更是强调了强化学习的作用。所谓强化学习就是智能系统从环境到行为映射的学习,以使回报信号函数值最大。强化学习不同于有监督学习之处在于回报信号。强化学习中由环境提供的回报信号是对产生动作的好坏做一种评价(通常为标量信号),而不是告诉强化学习系统如何产生正确的动作。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。通过各种方式,强化学习系统在行动——评价的环境中获得知识,改进行动方案以适应环境。 强化学习是从动物学习、参数扰动自适应控制等理论发展而来的。其基本思想是:如果智能体的某个行为策略导致环境正的回报(奖励),那么智能体以后产生这个行为策略的趋势便会加强。强化学习把学习看作试探评价的过程。智能体选择一个动作作用于环境。环境接受该动作后状态发生变化,同时产生一个回报信号(奖或惩)反馈给智能体。智能体根据回报信号和环境当前的状态再选择下一个动作。选择的原则是使受到正回报(奖)的概率增大。选择的动作不仅影响立即回报值,而且影响环境下一时刻的状态及最终的回报值。强化学习系统学习的目标是动态调整参数,发现最优策略,以使期望奖励和最大。 【出处】鲍军鹏,张选平.人工智能导论(第2版),机械工业出版社,2021年1月.
|