超越人类，自动驾驶中的深度强化学习

2022-02-17 13:37

本文来源：智车科技

／导读／

深度强化学习对于现阶段的科技工作者来说可能并不陌生，作为21世纪最为前沿领先的技术之一，深度强化学习早已在多个领域发挥了其不可替代的作用。例如前几年大火的AlphaGo战胜了一众围棋世界冠军，又比如游戏界DeepMind 研发的 AlphaStar 在《星际争霸2》中一战封神等等，火热的强人工智能加速了人们对于未来科技飞速发展的信心，而基于强化学习的方法更让人们看到了人工智能超越人类知识的可能。

如此前沿的技术必然在前沿的领域发挥举足轻重的作用，在自动驾驶领域，深度强化学习已然走出了自己特有的道路，并吸引一位又一位研究人员、企业对其展开探索，试图将这一人类能完成的最高智慧应用于未来的日常出行中。本篇文章就带领读者了解深度强化学习这个领域，并一窥这一前沿理论是如何应用在自动驾驶行业中的，未来又将带给我们怎样的惊喜。

什么是深度强化学习？

对于不太了解人工智能的小白来说，对深度强化学习这一名词的概念可能比较陌生，正式的定义为深度强化学习是将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。

而作为两大学习方法的叠加，深度强化学习包含了两种方法的特征与优势。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。更进一步来说，强化学习是一种典型的序贯决策方式，智能体通过与环境的交互获得反馈，在尝试和试错中不断进步。而深度强化学习综合了深度学习对高维数据的抽象感知能力与强化学习优秀的决策能力，能够处理更高维度的输入与输出数据。

近年来，深度强化学习算法已在许多领域都取得了令人震撼的成就。2016年，基于深度 Q 网络（Deep Q Network，DQN）和蒙特卡洛树搜索算法的围棋程序“AlphaGo”以4：1战胜世界冠军李世乭，轰动了世界，使得深度强化学习成为了人工智能领域研究的新风向。

随后，Lillicrap 等学者提出了直接优化策略的深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法，而非通过比较状态动作值函数的方式进行动作选择，从而避免了连续动作空间离散化的“维数灾难”，将深度强化学习算法可应对的场景拓展至连续动作空间中。为了实现工程中的轻量级应用，Mnih等提出了异步强化学习（Asynchronous Reinforcement Learning，ARL）框架，可以使用异步的梯度下降法来优化网络参数。

近些年来深度强化学习算法取得的令人振奋的成果鼓励了工业界和学术界进一步深入研究深度强化学习算法及其应用。近年来学者们将深度强化学习算法应用在机器人控制、楼宇空调系统控制、匝道控制等领域中，在汽车和智能交通等领域，深度强化学习也在车道保持、超车决策、主动制动、能量管理、交通流调度等方面得到了应用。

1 2 下一页>