斩获最佳论文后,他没有All In自动驾驶,而是All In了具身智能!| 专访 CVPR 最佳·李弘扬
发布日期:2025-07-08 

2023年,当UniAD在CVPR大会上斩获最佳论文,许多人将这视为中国自动驾驶研究迈向世界舞台的高光时刻。但对李弘扬而言,那只是一个开始。

UniAD 出来之后,业界纷纷围绕“端到端”展开技术布局,而他已经在思考:如果将这些核心能力推广到更广义的智能系统中,会是什么样的图景?

是的,他并未选择停留在已有的功勋簿上,而是果断地将从UniAD 中凝练出的方法论,迁移至一片更广阔、更富想象力的新大陆"具身智能"。这并非一次简单的“转型”,而是一场深思熟虑后的“升维”,是将一套业已成熟的“感知-决策-执行”闭环框架,向更通用、更复杂的物理世界进行的自然延展。

智源社区与他的这次深度对话中,李弘扬系统地复盘了他从自动驾驶到具身智能的心路历程,分享了UniAD “以终为始”的研究哲学,并对当前具身智能领域的机遇与泡沫给出了冷静的剖析,甚至直言:其实现在看到的一些机器人演示视频是不真实的。”他的思考,不仅揭示了一位顶尖科研人员如何在技术热潮中保持独立的判断力,也为我们理解人工智能的未来走向,提供了一个极具价值的样本。

要点速览

关于研究判断:自动驾驶已从技术驱动转向资源驱动,成为高度依赖资金、数据和工程体系的赛道。

关于UniAD的核心理念:该工作最大的意义在于提出了一种以终为始、以任务规划为导向的理念。

关于行业泡沫:其实现在看到的一些机器人演示视频是不真实的。

关于“ImageNet 时刻”:一个领域真正的“ImageNet时刻”,并非指发布一个数据集让大家被动使用,而是要创建一个能激发整个社区主动参与和贡献的平台或基准(Benchmark)。

关于科研建议:在行业最热闹的时候,要在场,保持关注和判断,不被边缘化;而当热潮退却、泡沫破灭、喧嚣散去时,凭借你的扎实积累和持续努力,依然能坐在牌桌上。这才是最关键的战略定力。

图片

李弘扬,香港大学助理教授,港大OpenDriveLab(opendrivelab.com)团队负责人。研究方向为端到端智能系统在机器人、自动驾驶的应用。他主导的端到端自动驾驶方案UniAD于2022年提出,获IEEE CVPR 2023最佳论文奖。UniAD等系列工作产生了明显的社会经济效益,包括特斯拉于2023年推出的端到端FSD。他构造的超大规模具身智能训练场Agibot World, 是业界首个百万真机、千万仿真数据集,系统研究具身Scaling Law方法论。他提出的俯视图感知方法BEVFormer,获2022年百强影响力人工智能论文榜单,成为业界广泛使用的纯视觉检测基准。他多次担任CVPR、NeurIPS、ICLR、ICCV、ICML、RSS等国际会议领域主席(AC),其中获得NeurIPS 2023 Notable AC。他是《自然》、《自然·通讯》审稿人、国际期刊《Automotive Innovations》客座编委。IEEE、CCF、CSIG高级会员、IEEE汽车委员会自动驾驶国际标准P3474工作组组长。荣获2024年中国吴文俊人工智能青年科技奖。

UniAD 之后,没有“终点站”,只有更广义的智能世界

李梦佳:介绍下您及其团队在人工智能领域近年来的代表性研究成果?

李弘扬:此前曾介绍过一项高效的研究成果BEVFormer,该项目完成后进行了开源。此项代表作自2022年发表以来广受欢迎,目前单篇引用量已逾千次,这对一篇学术论文而言意义重大。

第二个代表作项目是公众熟知的UniAD,其开创性地将感知与决策统一在单一网络模型中。该成果于2022年12月发布,次年3月即引发讨论,特斯拉也在2023年底推出的FSD V12中也体现了此思路;进入2024 年,国内主流车企也陆续跟进,选择了这一技术路线。

图片

图注:端到端自动驾驶算法工作UniAD 被评为 CVPR 2023 最佳论文

第三项代表作是最近完成的一项具有广泛影响力的研究工作:超大规模真实机器人操控数据集“AgiBot World” 的构建

图片

图注:AgiBot World github 地址  https://github.com/OpenDriveLab/AgiBot-World

该项目之所以受到广泛关注,关键在于其部署规模与应用广度:项目在一个占地1000平方米的场地中,部署了100台真实机器人,数据采集覆盖了五大典型行业场景。相比以往研究在整合多源数据时常面临的异构性难题,这个项目在统一数据标准、跨领域适配等方面实现了关键突破。

上述三项成果,分别代表了我及其团队在视觉感知、端到端自动驾驶以及具身智能领域的代表性工作。

李梦佳:在您的研究过程中,曾经出现过哪些关键的“转折点”?有没有某个时刻,让您对自动驾驶或整个智能系统的研究路径产生了根本性的重新思考?

李弘扬:关键的转折点在于,我逐渐意识到自动驾驶的研发已步入“下半场”。这一认知源于我在加州与多位知名教授的深入交流。我们达成共识:自动驾驶已从技术驱动转向资源驱动,成为高度依赖资金、数据和工程体系的赛道。在这一阶段,若缺乏企业级的资源支撑,学术界很难再产出具有颠覆性或广泛影响力的成果。

基于上述判断,我逐步将此前在端到端自动驾驶中积累的技术能力,迁移应用于更广义的智能系统。事实上,从自动驾驶系统到泛化智能系统,二者在感知、决策、系统集成等核心能力上具有高度共通性。我一些最紧密的合作伙伴中,许多都具备自动驾驶背景,现在我们转向更具前瞻性的研究方向。

对我而言,最关键的转折点,是明确了“具身智能”是一片尚待开拓的蓝海。在深入思考与调研后,我逐渐意识到,具身智能在其四大核心要素:算法、数据、硬件与应用场景的每一个层面都蕴藏着巨大的研究价值和应用潜力。这个战略方向的确立大约是在2024年6月至7月之间,也正是从那时起,我将研究重心全面转向具身智能领域。

李梦佳:您早期聚焦于端到端自动驾驶,如今却将重心转向具身智能。促使您做出这一转变的原因是什么?

李弘扬:之所以选择将研究方向从自动驾驶转向具身智能,根本原因在于两者在核心技术上具有高度的共通性。尽管自动驾驶系统表面上是一个“有四个轮子”的载体,但从建模的角度来看,其整体架构是可以被抽象和简化的。

无论是自动驾驶还是机器人系统,它们在技术流程上遵循着类似的范式:首先,通过感知系统识别并理解外部环境;接着,基于感知结果与环境进行智能决策与交互;最终,执行相应的动作以完成任务目标。这种从感知到决策,再到执行的闭环流程,构成了二者在系统设计与技术实现上的深层共性。

例如,在机器人领域,动作执行通常被称为“策略(Policy)”,这一概念与自动驾驶中的控制模块本质一致,因此两者在技术栈上具有高度相似性。从某种程度上看,自动驾驶可以被视为一种形态固定的特化机器人,其“身体”由车轮、油门和方向盘构成。

从这个角度来看,这并不是“转型”,而更像是方法论的自然延展,将一套已经在自动驾驶中打磨成熟的技术体系,特别是以强化学习为代表的智能决策框架,从特定的交通场景推广至更广泛的机器人领域。

具身智能的“ImageNet时刻”,不是靠秀场,而是平台

李梦佳:在您看来,目前机器人领域在技术推进上面临的核心挑战是什么?

李弘扬:在技术层面,机器人领域面临诸多挑战,其中最为关键的是数据获取与规模化的问题。测算结果显示,若以当前大语言模型所依赖的数据规模为参照,多模态领域的数据量仅为其约1/200,而机器人相关数据的规模则更为稀缺,仅为1/5000。在如此有限的数据基础上实现系统的泛化能力和智能水平,构成了当前研究中的重大难题。

造成机器人数据难以规模化的根本原因,在于其高度的异构性。不同的机器人平台、传感器配置以及所承担的任务各异,使得数据难以统一和整合。这与自然语言处理领域形成鲜明对比,后者的文本数据可便捷地从互联网中大规模获取,具备良好的标准化和一致性。

因此,研究中面临的重要课题之一,是如何通过模拟仿真环境或设计成本可控的设备,实现机器人数据的大规模、快速、经济的采集与积累。这一过程不仅技术复杂,也蕴含着创新的空间。

为应对这一挑战,可以从两个方向入手:一是与国内外领先的硬件企业建立合作,借助其平台实现数据的快速获取;二是自主研发低成本、高效率的数据采集系统,以满足大规模数据需求并推动研究进展。这两条路径均具备深厚的技术潜力和广阔的应用前景。

图片

图注:AgiBot World Colosseo 简介

李梦佳:您前阵子发布的“AgiBot World” 数据集,是否正是为了应对前述的数据采集挑战,进而推动具身智能的发展?要想打造具身智能领域的“ImageNet”时刻,还需要哪些努力?

李弘扬:当前具身智能领域存在显著的泡沫化倾向,有些宣传称“AgiBot World”是具身智能的“ImageNet 时刻”,其实存在一定程度的过度渲染。

冷静地看,一个领域真正的“ImageNet时刻”,并非指发布一个数据集让大家被动使用,而是要创建一个能激发整个社区主动参与和贡献的平台或基准(Benchmark)。

只有当社区成员在此基础上不断贡献,例如围绕其举办多年竞赛、催生出各类衍生数据集时,才能形成一个健康且良性的发展循环。因此,我们将当前的工作视为一个起点,并计划在此基础上举办一系列社区活动。

未来,通过开源生态、仿真平台、学术竞赛以及校企捐助计划等一系列举措,将逐步构建起完善的社区生态,这是至关重要的一步。

李梦佳:所以可以理解为,核心策略是围绕数据集举办竞赛,通过社区共创的模式来解决领域内的关键难题。如果进一步细分,“数据获取”这一宏观挑战还可以被拆解为哪些更具体、更具可操作性的子问题?

李弘扬:从具体的任务来看,数据集及相关竞赛主要侧重于三个核心方向:首先是多机器人协同(Multi-robot Collaboration);其次是融合触觉信号的感知,例如对力的变化进行感知;最后则是灵巧手的高级操作。

李梦佳:能否详细介绍下UniAD?有报道称它对特斯拉的FSD产生了深远影响。

李弘扬:首先,2023年,这篇论文在九千多篇投稿论文里脱颖而出,获得了年度 CVPR 最佳论文。其次,至于其对FSD的深远影响,通常企业不会公开承认其技术源自学术界或开源项目。但从时间线上看,UniAD的方案提出得比特斯拉采用类似方案要早很多。尽管无法断言,但特斯拉的工程师大概率是了解过这项工作的。

图片

图注:UniAD 流程图。UniAD 把所有模块(感知、预测)变成一个“统一系统”,通过联合训练,让每个部分都为了最终的规划目标来学习、调整。

该工作最大的意义在于提出了一种“以终为始”、以任务规划为导向的理念。它改变了过去分模块独立优化(如单纯提升感知模块性能)的模式,转而从自动驾驶的终极目标(如任务完成率、乘坐舒适性)出发,进行端到端的全局联合优化。这才是其最深远的影响。

回顾这项已完成两年的工作,其对后续研究的启示有两点。

第一点便是“以终为始”的思维模式。如同美国DARPA等大型项目,应首先明确最终目标,再由此逆向推导所需的技术、团队和平台,而非由现有技术拼凑组合。

第二点启示,是研究工作必须做得极为扎实。例如,UniAD论文正文仅八页,但附录中关于实验设计、消融研究以及每个模块设计缘由的论证却远超十页。一项能获最佳论文级别认可的工作,必须能逻辑严密、细节扎实,并经得起反复推敲。

李梦佳:关于具身世界模型,当前学术界对此似乎存在分歧,例如一些研究者相信世界模型,另一些则不然。请问您对此持何种观点?

李弘扬:世界模型本质上是一种基于条件概率的预测:在给定当前状态(St)和特定动作(At)的条件下,预测下一时刻的状态(St+1)。它之所以备受关注,是因为一个训练有素的世界模型,天然地蕴含了对环境的感知与理解能力。

这与传统的视频预测(Video Prediction)有严格区别,后者缺少对动作(At)这一条件的依赖。正是因为世界模型能够理解动作指令(如“向左转”或“打开门”)并预测其结果,才表明它具备了空间感知能力,这对自动驾驶和具身智能至关重要。

目前,国际上的权威专家也在积极推动这一方向。因此,个人观点是,所有研究者都应“相信”世界模型这一宏观方向。当前真正的分歧点,不在于“信或不信”,而在于具体采用何种技术路线,例如是基于视频、还是基于隐空间,是分层的还是其他类型的,这其中有大量的技术细节尚待探索。

李梦佳:关于Scaling Law,在具身智能领域,应如何验证并应用,从而有效提升模型性能与效率?

图片

图注:OpenAI提出的Scaling Law。例如,只要模型更大、数据更多、计算更强,语言模型的表现就会越来越好,而且提升是稳定的、可预期的。但要想效果最好,这三样得一起提升,不能只放大其中一个。单独看每一样,它对模型性能的提升都有一种幂律增长。

李弘扬:Scaling Law无疑是过去一年学术界的一大热点。但坦率地说,过去一年在自动驾驶和具身智能领域,许多关于Scaling Law的研究还不够充分。其不够扎实之处在于,部分研究或是在过于简化的场景中进行,或是基于极少数(例如仅四五个)数据采样点便绘制曲线进行外推,其结论的可靠性有待商榷。

估计今年该方向会持续热门,但研究必须走向深入和细致。未来的研究思路可以包括:探索如何高效利用Scaling Law,用更少的数据(如十分之一)达到同等的泛化能力;或是基于其规律,提炼出一套可预测的方法指南。

热点不是终点,热闹也非坏事:要在场,但不随波逐流

图片

图注:2024年11月5日,李弘扬参加智源主办的“智源论坛·2024具身与世界模型专题峰会”

李梦佳:能否分享在您的学术道路上,有哪些关键的人或事件对您产生了深远影响?特别是有哪些组织或导师的引导,对您的研究方向产生了深远影响?

李弘扬:在学术道路上,对我具有深远影响的人与事可从两个层面理解。其一,来自组织的包容与引导。在上海人工智能实验室,领导层给予我们团队,包括我个人,非常大的包容与自由探索的空间。

我印象特别深的一次,是一位领导曾经问我:“弘扬,你觉得未来五到十年,自动驾驶在学术界还有哪些值得深入的研究方向?”他还分享了自己的经历,说他当年读书时做的是通信方向。现在回过头看,这个领域在高校的研究空间已经比较有限了,更多是工业应用的阶段。正是因为有这样的视野和启发,才使我们更加大胆探索更具前瞻性的方向。

其次,与师长的交流使我获得技术洞察力。无论是加入香港大学后的马毅教授,还是先前交流过的朱松纯教授,他们始终在关注如何回归智能本质,专注于技术研究本身。这种理念对我产生了深远的影响,也促使我不断思考科研的初心与方向。

李梦佳:接下来我们聊一些关于人才培养的话题。对于有志于从事AI研究的青年学子,您在“如何做好研究”方面有哪些具体的建议?

李弘扬:首先,我建议不要过早专注于某一具体的机器学习方向,而应优先打好坚实的数学基础。线性代数、概率论等核心课程必须深入掌握,这是理解现代机器学习算法的前提。

其次,编程能力同样不可或缺。这不仅仅是指会调用API或使用已有软件包,更重要的是对C++、Python等主流语言有扎实的掌握——这是具备计算机科学背景的研究者所应具备的基本功。

在此基础上,还应拓展更广泛的技术能力。例如,并行计算知识可以提升模型训练与算法实现的效率;具备一定的网页开发与设计能力有助于成果展示;而在云端环境中进行研究,则要求熟练掌握Linux命令、Git版本控制等基础操作。

总的来说,应当先建立起全面而扎实的技能体系。至于具体研究课题的选择,则往往与所就读学校及所在课题组的研究方向密切相关,此处不再赘述。

李梦佳:近期AI领域的重大突破让整个行业显得有些浮躁。对于年轻的研究人员而言,应如何在这种环境中保持定力,平衡好坚持自身学术方向与应对外界浮躁现实之间的关系?

李弘扬:坚持正确的方向,远比盲目地坚持更为重要。一个非常实用的做法是:果断取关所有微信公众号。因为许多媒体账号缺乏基本的判断力,只是机械转发信息,缺乏责任感,极易误导视野与方向。

面对层出不穷的新模型和技术热点,研究者无需焦虑跟风。更有效的心态是将每一个科研项目当作一件独立的作品,用打磨艺术品的态度去精雕细琢。真正有价值的研究,往往诞生在与外界保持距离的思考中,而不是喧嚣中盲从热点。

当一个研究方向成为人人追逐的焦点时,其原创性与研究空间往往已经大幅缩水。此时更需要的是一种“耐得住寂寞”的学术定力。坚持自己的判断,即使所做的事情在短期内不被广泛关注,也可能在长期中显现价值。

尤其是在“具身智能”这样极易引发技术焦虑的领域,更需要保持理性和清醒。当前许多所谓的机器人突破性视频演示,其实在我看来几乎可以百分之百确认是假的。可以预见的是,到了2025年以后,整个技术界的评价标准将从精心剪辑的“演示”转向实时、透明的“直播”。

因此,对于青年研究者而言,一个长期有效的策略是:在行业最热闹的时候,要在场,保持关注和判断,不被边缘化;而当热潮退却、泡沫破灭、喧嚣散去时,凭借你的扎实积累和持续努力,依然能坐在牌桌上。这才是最关键的战略定力。

李梦佳:非常赞同您关闭信息流的观点。面对近期具身智能领域层出不穷的融资消息,您自己是否也会主动屏蔽这些信息?

李弘扬:虽然我个人确实减少了对许多媒体账号的关注,但来自朋友,尤其是投资圈朋友的信息分享,有时也难以避免。不过,从另一个角度看,这或许是件好事。正如一些学者所认为的,当前领域的投资热度正体现了科技创新在推动新生产力。

我想要提醒的是,一个新兴赛道很火并存在一定的泡沫,是正常现象。但作为学者,关键在于始终保持冷静的独立思考。这种冷静体现在,不应因为一份技术报告出自大公司就盲目相信。

反之,也不能仅仅因为一篇论文被顶会接收,就认为其内容必定无懈可击。作为学者,时刻保持批判性思维的能力,至关重要。

李梦佳:高校与科研机构应分别提供哪些支持(如资源、渠道等),来更好地帮助青年人才与专家学者成长与发展?

李弘扬:我有一套关于创新生态的理论,其中包含三个关键角色。首先,大学作为教育者,主要负责“从0到1”的源头创新,核心是培养学生的批判性思维。其次,包括智源在内新型研发机构负责“从1到10”的承接与转化,扮演着连接高校与企业的“连接器”角色。最后,企业则负责“从1到100”的规模化放大,它们拥有海量资源和明确的产品目标,但其行为往往受短期商业利益驱动。

因此,在人才培养方面,高校提供的最核心支持是成体系的方法论与完备的技术知识框架。而新型科研机构(如智源)则能提供一个资源相对充裕、能让研究者“心无旁骛”进行探索的环境,并发挥其作为高校与产业之间关键的“纽带”作用。

文章来源:智源社区