无痛的增强学习入门 蒙特卡罗方法 (无痛训练)

无痛的增强学习入门 蒙特卡罗方法 (无痛训练)

这个问题在增强学习中也被称为是“探索与利用”的对立问题。所谓的探索是指不拘泥于当前的表现,选择一些其他的策略完成行动;利用就是持续使用当前的最优策略,尽可能地获得更多的回报。我们假设总的资源是有限的,比方说时间有限,可以进行模拟游戏的轮数有限,我们不能无止尽地探索,也不能短视地一直利用,那么就需要尝试在两者之间寻找一个平衡。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。