有一天,我和朋友在咖啡厅聊天,她突然提到她最近在玩策略游戏。她说,每次遇到障碍,她都会上网搜索攻略,观察别人的操作。我好奇地问:“那你为什么喜欢做援军呢?”她想了想,说道:“就像生活一样,你不知道接下来会发生什么,但通过强化,我可以在游戏中不断进步。这种感觉很真实。”
等等,还有一件事。我记得有一次在地铁里我看到一个小女孩给她妈妈买早餐。她提着两杯豆浆和一袋馒头,边走边吃。我想这就是生活。有时候,一个小小的努力就能让人感到温暖和幸福。
我突然想到,强化大概是因为人都渴望成长和进步,就像那个小女孩,虽然很小,但她已经学会了照顾别人。那么,我们呢?我们是否也在不断强化自己,跟上这个不断变化的世界的步伐?
实施强化学习实际上非常简单,但其复杂性背后有很多原因。我们先来说说最重要的事情。强化学习因其可以处理动态环境并且不需要大量标记数据而被广泛使用。还有一点是,强化学习在游戏、机器人控制等领域取得了显著成果,应用案例约3000个。起初,我认为强化学习只是一组算法,但后来我发现这是错误的。它更加强调优化策略和决策。等等,还有别的事。当强化学习解决长期奖励和短期奖励之间的冲突时,特别容易陷入局部最优解。说实话,这很令人困惑。很多人没有注意到这一点。所以我觉得在做强化学习的时候,我们应该尽量引入一些预先存在的知识来支持决策,这样可以提高算法的鲁棒性。