特斯拉 Autopilot 正在改变世界

2020-01-04 11:42

半导体风向标

关注

特斯拉 Autopilot 已经很久没有更新了。

随着 2018 年 10 月 27 日特斯拉 2018．42．2 版本的大规模推送，Autopilot 软件团队的精锐力量全部聚焦到了增强召唤（Enhanced Summon）功能的研发上。

9 个月过去了，敢想敢干、效率至上的 Autopilot 团队至今没能搞定「增强召唤」。

2019 年 4 月 6 日，Elon Musk 在 Twitter 预告「增强召唤」将于一周后大规模推送。但随后 Autopilot 的实际表现证明，那个版本的「增强召唤」完全没有 Elon 说得那么效果拔群。

在 4 月 23 日的特斯拉投资者日上，Elon 无意中透露最新版本的「增强召唤」仍在内测中，而它目前还不适合大规模推送给用户。

也就是说，效果理想的「增强召唤」，至今仍没有研发落地。而特斯拉最新公布的推送日期，定在「8 月 16 号前后」。

特斯拉 Autopilot 怎么了？今天，我会尝试从组织架构、AI ＆软件、硬件三个方面尝试说明，为什么 Autopilot 走到了拐点，为什么说 Elon Musk 正在推进 Autopilot 的终局战争。

5 个月实现自动驾驶

从 LA Brentwood 的家到 Hawthorne 的特斯拉设计中心，Elon 经常会选择开特斯拉前往，他有一辆 Model S 一辆 Model 3。两辆车的相同之处在于都搭载了开发者版本的 Autopilot，区别之处在于这是两个不同的版本分支：一个支持「增强召唤」功能，另一个支持自动驾驶（Full Self Driving）功能。

在每天上下班通勤的路上，他会开启上述功能进行测试，并将问题直接反馈给 Autopilot 团队。

8 个月后，Elon 重新开始谈论 Autopilot。

拥有复杂交通灯的交叉路口和购物中心停车场的交叉口是两个最大的软件挑战。开发团队分支的大部分精力都投入在这些场景中，但要达到 99．9999％的安全性还需要付出大量的努力。

停车场（增强召唤）是个非常棘手的问题。今天晚些时候会对「增强召唤」进行深入的工程审查。

三天后答另一位网友的问题时，Elon 透露「增强召唤」将于 8 月 16 日前后进行大规模推送。Autopilot 团队攻克了大量复杂的挑战。对于新版增强召唤，Elon 的评价是 Magical。

「增强召唤」的定义，是从停车场的任意车位响应驾驶员的手机 App 召唤，自动驾驶至驾驶员所在位置。听起来似乎没有那么困难，但为什么让 Autopilot 的开发进度一度陷入停滞？

「最大的软件挑战」是一个笼统的说法，更具体地说，是感知？决策？还是控制存在挑战？

从 2015 年 10 月起，Elon 就开始亲自面试并直接领导 Autopilot 团队。发展到今天，特斯拉 Autopilot 团队一共有 200 人左右。

Autopilot 硬件副总裁 Pete Bannon 领导着大约 70 人的硬件团队，负责特斯拉 AI 芯片以及毫米波雷达的自主研发工作。

Pete Bannon

Autopilot 工程副总裁 Stuart Bowers 领导着 Autopilot 最大的一支团队，人数达到 100 人左右，负责地图、质量控制、模拟和固件更新业务的推进。

Stuart Bowers

Autopilot Vision ＆特斯拉 AI 高级总监 Andrej Karpathy 领导着最小但最核心的一支团队，负责特斯拉计算机视觉和人工智能技术边界的探索。这支大约 35 人的团队涉及的技术包括自我监督学习、模仿学习和强化学习，是硅谷乃至全球最顶级的人工智能应用研究团队之一。

Andrej Karpathy

Pete、Stuart 和 Karpathy 铁三角向 Elon 直接汇报的稳定关系已经持续了接近 1 年（这在特斯拉非常少见），直到 4 月 23 日特斯拉投资者日后，事情开始起变化。

在特斯拉投资者日上，Elon 放出了一张特斯拉的十年 To－do List，左边是已经达成的里程碑，右边明确写着 2019 年，也就是未来 5 个月内，特斯拉将实现自动驾驶功能完成（Feature complete）。

这一次，没有 Mobileye 不开放的视觉感知限制，也没有 Autopilot 2．＋的算力桎梏，在过去的三年里，Elon Musk 兵不血刃扫清了通往自动驾驶道路上的所有物理限制。现在轮到 Autopilot 团队上场了。

5 个月实现自动驾驶，这是一个苛刻到残酷的时间表，但研发已经开始推进。媒体的报道中说 Elon 和 Autopilot 团队爆发了激烈的冲突。其实没有什么「激烈的冲突」，有的只是两个选择：5 个月实现自动驾驶；走人。

5 月 10 日，Stuart 治下的软件工程团队最先被动刀，先后有五位工程师离职。

「增强召唤」技术 Lead Nenad Uzunovic

感知 Lead Zeljko Popovic

首席感知工程师 Drew Steedly

控制和路径规划高级工程师 Frank Havlak

模拟团队高级工程师 Ben Goldstein

在 Autopilot 内部，一场更大的风暴正在来临。Stuart 被降职，Ashok Elluswamy 被提拔为感知＆计算机视觉团队负责人、CJ Moore 出任 Autopilot 模拟、质量控制负责人，路径规划负责人变成了 Drew Baglino，上述三人改为直接向 Elon 汇报。

也就是说，在核心五人组（CEO、CFO、CTO、首席设计师、汽车业务总裁）之外，向 Elon 汇报的除了遍布全球的 22 位副总裁，新增 3 位 Autopilot 团队执行负责人。新的组织结构如下。

Autopilot 硬件 VP Pete Bannon

Autopilot 工程 VP Stuart Bowers

Autopilot Vision 高级总监 Andrej Karpathy

Autopilot 感知＆ CV 负责人 Ashok Elluswamy

Autopilot 路径规划负责人 Drew Baglino

Autopilot 模拟负责人 CJ Moore

如上所述，截至目前，Autopilot 部门向 Elon 直接汇报的高管达到了六位之多，在特斯拉所有业务中排名第一。

在上面离职的高管中，不乏任职五年以上的 Autopilot 创始成员。在过去的五年里，他们经历了 Autopilot 1．0 到 3．0 的迭代，经历了「铁打的 Elon，流水的软件副总裁」，为什么在今天离职？

过去的时间表无论多么苛刻，Elon 的任务无非是「6 个月自研视觉工具取代 Mobileye」、「3 个月完成自动变道的研发测试推送」。尽管这些任务也都是世界级难题，但全力以赴＋跳票带来的时间宽限，终归是可以解决的。

今天，他们接到的任务是「5 个月实现自动驾驶」。

自 2009 年以来 Google X 实验室研发自动驾驶汽车以来，自动驾驶领域前仆后继地砸进了数百亿美金，数不尽巨头、高校、科研机构投入了大量的人才研发。但直到今天，自动驾驶仍然是一片荒原，是广袤无垠的技术无人区。

在过去的 5 年里，特斯拉一直面临供应商、车规、算力等各种各样的物理限制，不具备进军自动驾驶的现实条件。今天，Elon Musk 开始强力推进自动驾驶的研发。

特斯拉 Autopilot 走到了一个拐点。

Autopilot Vision 是怎样炼成的

2016 年 7 月，Andrej Karpathy 加入特斯拉出任 Autopilot Vision ＆ AI 总监。在Autopilot 部门剧烈人事变动的同时，35 人的 AI 部门稳如泰山，Karpathy 的工作功不可没。

在加入特斯拉之前，Karpathy 先后在斯坦福大学 AI 实验室、Google 和 Open AI 从事 AI 领域的研究。特斯拉 Autopilot 应用到的 AI 技术包括自我监督学习、模仿学习和强化学习。

在特斯拉官网，我们看到「Tesla Vison 基于深度神经网络，能够对行车环境进行专业的解构分析，相比传统的视觉处理技术可靠性更高」。

但特斯拉到底是如何应用 AI 驱动 Autopilot 向自动驾驶的道路迈进的？我们需要更多信息。

首先我们先要明白的是，所谓 Tesla Vision，一个端到端的深度神经网络（Deep Neural Networks），Ta 不是一个深度神经网络，而是多个深度神经网络各司其职的组合体。

首先是「物体的检测与分类」，包括障碍物、交通信号灯和路标的检测与识别。

DriveNet：感知道路上的其他车辆、行人、交通灯（不分辨状态）和路标

LightNet：对交通灯的状态进行分类：红色、黄色或绿色

SignNet：识别路标类型，停车／限速／单行道等等

WaitNet：检测识别车辆必须停车和等待的情况，例如交叉路口／大型停车场

在「物体的检测与分类」部分，Karpathy 推崇通过「自我监督学习」来快速提升 Tesla Vision 的能力。

自我监督学习是深度学习领域非常热门的一个细分方向，4 月 30 日，三大 AI 教父之一、Facebook 首席 AI 科学家 Yann LeCun 专门发文谈了自我监督学习领域的现状。自我监督学习在自然语言处理领域取得了巨大的成功，但在图像或视频领域还不能很好的工作，在他看来，这将是未来几年 AI 领域最棘手的挑战（the greatest challenge in ML and AI of the next few years）。

将自我监督学习应用于图像或视频领域，这就是 Karpathy 所做的工作，只不过时间宽度「未来几年」变成了 5 个月。

什么是自我监督学习呢？自我监督学习通过设计辅助任务来学习可区别性的视觉特征，这样一来，目标标签能够直接从训练数据或图像中获得，并为计算机视觉模型的训练提供监督信息。

自我监督学习最大的优势就是消除了监督学习要求人类进行数据标注的先决条件，通过提取并使用自然场景前后的相关元数据作为监督信号。

以自动驾驶为例，截至 7 月 5 日，特斯拉 Autopilot 全球累计里程已经超过了 15．5 亿英里，对于这样一个天文数字规模的数据集进行清洗、手动标注、训练和完善深度神经网络，这在短期内是不可能完成的。

而自我监督学习很好地解决了这个问题，某种程度上，它让深度神经网络走上了自我完善的道路，你要做的是利用全球 50 万辆规模的车队收集数据并用于训练它，它就会变得越来越强大。

初步的感知完成后，接下来是路径规划。在路径规划层面，同样需要多层深度神经网络来完成对环境的感知。以完成车辆前方道路的规划。

OpenRoadNet：识别车辆周围的所有可驾驶空间，包括所在车道和相邻车道

PathNet：在没有车道线的情况下突出显示车辆的可行路径

LaneNet：检测车道线和定义行车路径的其他标记

MapNet：识别可用于创建和更新高精地图的车道和地标

路径规划也存在一些超级复杂的挑战。比如说车道线不清晰甚至没有车道线的路况（当然，你可能注意到了上面的 PathNet），这些问题该如何解决呢？Karpathy 的解决方案是：人类是怎么做的，Autopilot 就怎么做。

模仿学习（imitation learning）是深度学习领域一种相当流行的研究方法。2019 年 2 月，Waymo 首席科学家 Drago Anguelov 在 MIT 发表演讲。Drago 披露借助「模仿学习」，Waymo 自动驾驶汽车正在通过学习人类驾驶的行为，来提升系统的驾驶能力。

特斯拉使用的方案叫做行为克隆（Behaviour Cloning，模仿学习的一种）。行为克隆是什么意思呢？这个相对好理解得多，我们人类学习新技能就是通过观察别人怎么做从而完成学习。

So we just source a lot of this from the fleet， we train a neural network on those trajectories， and then the neural network predicts paths just from that data． So， really what this is referred to typically is called imitation learning．

We’re taking human trajectories from the real world and we’re just trying to imitate how people drive in real worlds．

前面说了，拥有复杂交通灯的交叉路口对自动驾驶汽车来说最具挑战的一种场景。这个时候系统该怎么决策呢？

每一辆特斯拉汽车经过（无论 Auopilot 启用与否）该路口，8 颗摄像头都会生成一个图像数据。当图像数据足够多的时候，深度神经网络就会提取人类驾驶员在此路口采取的驾驶决策（包括车辆所在位置、车速、转向角度、刹车力度等等）中相同元素的最高部分来进行学习。

在另一辆特斯拉在 Autopilot 启用状态下经过该路口时，Autopilot 就会模仿人类驾驶员的安全驾驶行为去进行决策。

不仅如此，在同城的其他区、其他城市乃至其他国家，遇到类似情形的路口时，深度神经网络会调取驾驶员的安全驾驶行为去匹配遇到的情形，完成学习能力的迁移。

我们谈了自我监督学习、模仿学习，但要让跑在全球各地的特斯拉具备自动驾驶能力，还有太多棘手的挑战。什么才是最大的挑战？

前 Waymo CTO Chris Urmson、阿里巴巴自动驾驶首席科学家王刚、前 Uber 自动驾驶副总裁 Anthony Levandowski．．．．．．越来越多的顶级人才公开表示，理解人类意图（Human intent）才是自动驾驶汽车最根本的挑战。

特斯拉的「增强召唤」已经做了 9 个月之久，按照我们上面提到的，只要应用模仿学习，不断模仿人类驾驶员的行为，特斯拉就可以自动驶出停车场，来到驾驶员身边。那这个功能为什么迟迟无法落地？

因为车辆每一次从驶出停车位到驶出停车场，面临的路况、其他车辆、行人的行驶方向和意图都存在太多不确定性。

这个时候，Karpathy 在强化学习领域的专业知识就派上了用场。

强化学习使用更宏观的全局思维来看待自动驾驶，以解决其中的问题。

所谓强化学习，指的是使用未标记的数据（类似自我监督学习），但是可以通过某种方法知道你是离自动驾驶越来越近还是越来越远（即奖惩函数）。可以把奖惩函数想象成自动驾驶的一个延迟的、稀疏的形式。

在自我监督学习中，能直接得到每个输入的对应的输出。但在强化学习中，深度神经网络需要训练一段时间后，才能得到一个延迟的反馈，并且只有一点提示说明你是离自动驾驶越来越远还是越来越近。

这里我想引用自动驾驶之外的案例来说明问题。2019 年 1 月，DeepMind 耗时两年研发的 AlphaStar，以 5：0 的绝对优势，打败了全球最强大的职业星际争霸玩家之一 Dario Wünsch 和 MaNa 战队，攻克了人类创造的复杂度最高的游戏。

星际争霸游戏有如下五个特性：

没有最佳策略（游戏过程千变万化）

不完整信息（无法看到全局信息）

长期规划（因果关系不是瞬间产生）

实时（必须随时间推移不断感知、决策、执行）

大型活动空间（数百个不同的单元和建筑）

眼熟吗？上述五个特性和自动驾驶汽车面临的挑战高度吻合。

AlphaStar 的深度神经网络，正是由星际争霸原始游戏数据基于监督学习和强化学习训练而来的。

同样的，AlphaStar 和 Autopilot 的相同之处在于，他们基本 AI 实现路径是一致的，面对的场景和解决的问题也有着很高的相似度。但区别在于，AlphaStar 的任务是打败人类，Autopilot 不仅要打败人类，它需要将安全性提升至 99．9999％。

美好的明天

这样一个由 AI 驱动的复杂系统，毋庸置疑是人工智能在汽车工业这个垂直领域最激动人心的应用。那么，特斯拉 Autopilot 会成吗？

我想先谈谈 Elon 之于其他汽车企业家的差异化优势。

早在 2015 年，Elon 就联合 Sam Altman 出资 10 亿美元创办了世界顶级的非盈利人工智能研究机构 Open AI。虽然 Elon 早已退出了 Open AI 董事会，但 Open AI CTO、首席科学家都是 Elon 的好友。此外，Deepmind CEO Demis Hassabis 及多位技术高管也与 Elon 相熟。

Elon 的 AI 朋友圈

2017 年 6 月，阿西洛马 AI 大会（Asilomar Conference）召开了一次座谈。台上 10 位嘉宾中有 9 位是来自伯克利、纽约、康奈尔等高效或研究机构的 AI 科学家，只有一位是企业家，他就是 Elon。

我的意思是，Elon 是唯一一个真正懂 AI，凭借专业的知识混进了一线 AI 圈的汽车企业家。这种近水楼台的优势在特斯拉延揽 AI 人才方面是无出其右的。

这只是特斯拉 Autopilot 的冰山一角。特斯拉在芯片、感知、决策、控制的自主能力、全球车队垂直整合和 AI 方面，独特又巨大的优势已经开始显现。

在大众和福特联手，奔驰和宝马联手，自动驾驶领域为什么快速走向了联盟分治时代？上述四家公司的 CEO 加起来，也没有 Elon 一个人对人才的吸引力强。

这是一个现实的问题。就好像你从斯坦福毕业，到底要去蔚来北美自动驾驶研发中心，还是去北汽做供应商辅助驾驶系统的集成？

Elon 敢喊出「我没有过于自信，但任何车企都不是特斯拉（Autopilot）的对手」不是没有理由的。

我们应该对特斯拉 Autopilot 抱有期待的第二点原因在于特斯拉的极度激进。

在自动驾驶投资者日上，面对台下的几十位股东， Stuart 说了这么一句话。

When we initially have some algorithms we want to try out， we can put them on the fleet， and we can see what they would have done in a real world scenario…

当我们有一些算法想要尝试的时候，我们就会把它们推送到车队上，我们就能看看它们在现实世界中运行会发生什么……

NoA 以 100 km／h 的高速冲出匝道口，某个版本的 Autopilot 自动变道突然犹豫不决．．．都是算法验证的产物。

极度激进的背后的结果是快速试错、快速改进。没有一家车企会以全球车主众包验证的形式来提升系统能力。

你可能会说，既然特斯拉这么厉害，为什么一个「增强召唤」都要跳票这么久呢？除了「增强召唤」本来就是自动驾驶落地过程中最复杂的场景之一外，Elon 这段话是很好的答案。

When we release something，we＇re releasing it to 500，000 cars and all over the world． And so it has to be a general solution． So our progress may appear slower than it actually is relative to others that are developing self－driving technology．

But in fact，it is quite a lot more advanced because any element that we release is a general solution．

当我们推送一些更新时，我们会将它推送到世界各地的 50 万辆汽车上。所以它必须是一个通用的解决方案。因此，相比正在开发自动驾驶技术的竞争对手而言，我们的进展可能看起来比实际上慢。

但事实上，它是非常先进的。因为我们发布的任何元素都是全球通用解决方案。