特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

mysmile 7 0
特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

特斯拉再添一把火,「世界模型」如何重塑自动驾驶?

文 | HiEV大蒜粒车研所,作者 | 肖恩,编辑 | 德新

你是否想过,AI不仅能创造文字和图像,更能直接构建物理世界?就在最近落幕的计算机视觉顶会ICCV上,卡内基梅隆大学团队的BrickGPT斩获最佳论文——它能从一段文字描述,生成可直接搭建的稳定积木结构,这清晰预示了生成式AI进军现实世界的巨大潜能。

但对于关注自动驾驶的你我而言,这场盛会还有更重磅的彩蛋:特斯拉AI副总裁Ashok Elluswamy在专题论坛中,罕见地揭秘了FSD(完全自动驾驶)的最新核心进展。

自2022年AI Day展示占用网络后,特斯拉对FSD,尤其是其端到端架构的内幕始终三缄其口。尽管FSD表现一路狂飙,技术细节却成谜。

Elluswamy这次终于揭晓关键:系统将多摄像头视频等多模态信息,直接输入一个庞大的端到端神经网络,并瞬间输出车辆控制指令——感知、预测、规划、控制全流程在同一个模型中耦合训练。这套框架,与当下最热门的“世界模型”构想惊人地一致。同时,在仿真测试中,特斯拉正利用世界模型来生成各种极端、对抗性场景,以实现高效的闭环评测与迭代。

在此之前,业内围绕视觉语言模型(VLA)与世界模型的技术路线之争已异常激烈,特斯拉的最新表态无疑是向火堆里又扔进一个爆点。无论最终形态如何,能够“想象未来”、进行前瞻推演的世界模型,已然成为驱动自动驾驶迈向更高阶的关键支点。

一、特斯拉FSD:端到端基础模型与世界模型的融合

Elluswamy以“构建未来的自动化”为题,首先展示了FSD的最新里程碑,包括Robotaxi的运营启动,以及车辆在工厂与交付中心之间实现全程无人驾驶。

紧接着,他深入介绍了特斯拉的端到端架构:多摄像头图像、导航地图、车辆运动状态乃至音频信号,全部汇入一个统一的神经网络。这个模型经过海量数据锤炼,能处理超长序列输入,并直接输出转向、加速、制动等控制信号。

这部分基础架构与国内主流方向大体同步,但一个显著区别在于,特斯拉额外引入了音频信号作为输入维度。

为何坚定选择端到端?Elluswamy给出了几点核心理由:

人类的驾驶行为充满直觉与应变,难以用固定规则穷尽,传统模块化架构信息损耗严重;

端到端系统扩展性极强,更利于攻克海量长尾难题;

系统时延稳定可控;

它不依赖人类经验编程,而是依靠算力与数据自主进化。

构建一套卓越的端到端系统挑战重重。Elluswamy重点剖析了三大难关:

维度灾难

FSD需要实时处理高帧率、高分辨率、长时序的多模态信息流:仅视觉部分,7个摄像头、每秒36帧、500万像素、持续30秒,若以“5×5像素块”为基本单元,其Token数量已极其庞大;再加上数英里的导航路径、100Hz的车辆运动数据以及48kHz的音频流,总Token量可逼近20亿级。若直接塞入Transformer,计算负担将令车端芯片难以承受。

特斯拉的破解之道,是利用真实车队采集的巨量数据,从中提炼出“关键Token”,通过稀疏化与聚合技术滤除冗余,在几乎不影响精度的情况下,将推理时延压缩到可实际部署的水平。

同时,数据引擎会主动挖掘高质量、高价值的极端场景样本用于训练,让系统在面对各类罕见路况时,也能展现出强大的泛化能力。

可解释性与安全验证

为打破“黑箱”质疑,特斯拉在车端模型中嵌入了可解释的中间输出层,例如全景分割、3D占据网络,甚至包括基于三维高斯渲染的场景重建与语言描述,让工程师能直观审视模型的“思考过程”。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:特斯拉

Elluswamy特别展示了特斯拉的生成式高斯喷溅技术。相比传统方法,它能以220毫秒的极速生成动态、逼真且无需初始化的场景,并可与端到端主模型联合训练,泛化能力更强。

闭环评测与仿真

最后也是最关键的一环:如何可靠评估模型性能?

开环测试的指标优化,并不等同于在复杂现实路况中的出色表现。必须构建一套多样、全面的评估体系,以支撑快速迭代。

为此,特斯拉祭出了“神经世界模拟器”。它基于真实数据训练,但其核心能力不是预测动作,而是根据当前环境状态与一个候选驾驶动作,生成未来数秒内世界将如何演化的高保真场景。这便与车端的端到端模型构成了强力闭环,用于进行效果验证与策略优化。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:特斯拉

这个模拟器能依据指令,因果一致地生成可交互的未来场景:不仅能回放历史数据验证新模型,更能主动合成各类对抗性、极端性路况,用于攻破长尾难题与探索安全边界。

在工程上,该模拟器可实现实时或近实时的高分辨率场景生成,极大加速研发循环。其强大的视频生成能力,还能支撑在虚拟世界中开展大规模强化学习,以此追求超越人类水平的驾驶策略。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:特斯拉

尽管特斯拉未直呼其名为“世界模型”,但从神经世界模拟器的能力看,它无疑是一个强悍的世界模型实例。

不同于仅作环境生成的传统云端模型,特斯拉的系统能在给定候选动作的前提下,精准预测未来数秒的世界演变,从而实现决策前瞻与安全验算。

模型不仅是“场景复制器”,更是能“预演行动结果”的因果推理引擎。

由此推断,特斯拉车端的基础模型很可能同样内置了世界模型的核心能力,与云端模拟器协同,形成了从训练、评估到部署的完整技术闭环。

二、何为世界模型?

端到端架构是自动驾驶通向更高上限的必由之路,已成行业共识。但如何在其框架下实现媲美甚至超越人类的驾驶智能?世界模型提供了最受瞩目的答案之一。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:World Models for Autonomous Driving: An Initial Survey

世界模型尚无刻板定义,但内核逐渐清晰:它是一个生成式时空神经网络,能将摄像头、激光雷达等多传感器信息压缩编码为一种富含几何、语义及因果关系的“潜在状态”。

关键在于,世界模型可以在这个压缩的“脑海”空间里,推演环境未来数秒甚至更久的变化,让智能体在真实行动前,就预先“演练”各种可能的轨迹与策略。它常被形象地称为具备“想象未来”能力的AI大脑。

通常,世界模型聚焦三类核心任务:

未来场景生成:基于当前与历史感知数据,生成物理合理、包含动态物体的未来场景演化(视频或点云)。

行为规划与决策:结合推演出的未来,为自车生成最优轨迹或驾驶动作。

联合预测与规划:在潜在空间内同步建模自车与他车、行人的交互,通过评估不同候选动作的未来后果,实现闭环的决策优化。

它绝非感知、预测、规划模块的简单堆叠,而是一个统一、可内省、可推演的智能中枢。其核心能力包括:

潜在时空表示

将高维、杂乱的真实世界信息,高效压缩为低维、有序的潜在状态。这个状态不仅是环境的“快照”,更是包含演化规律的“种子”。

动作条件的未来推演

在潜在状态中,模型能根据“如果我加速变道”、“如果我减速礼让”等不同假设,生成对应的未来场景分支。这实现了从“预测将会发生什么”到“评估我的行动会引发什么”的质变。

与规划控制的闭环耦合

世界模型生成的未来并非仅供观赏,而是直接用于评估不同驾驶策略的风险与收益,从而在虚拟推演中完成决策筛选。这正是特斯拉“神经世界模拟器”展现的威力——在仿真中评估模型、生成对抗场景、进行强化学习。

多主体交互与不确定性建模

真实路况充满博弈。世界模型必须在内部表征中,刻画他车、行人的意图与可能反应,并生成多种概率化的未来,以应对“前车可能让行也可能抢道”这类不确定性。

长期记忆与自我演化

理想的世界模型应能积累驾驶经验,在不同城市、天气、路况中持续学习与泛化,实现能力的自主进化。

正因如此,世界模型被广泛视为解锁L3乃至L4级高阶自动驾驶的那把关键钥匙。

三、中国的世界模型之路

在这场全球竞赛中,中国玩家已强势入场,打法各异。有商汤这类专注云端数据生成的赋能者,也有蔚来、华为这样坚定推动世界模型上车的整车巨头。世界模型,正在中国落地生根。

蔚来NWM世界模型

蔚来是中国首批公开押注世界模型的车企之一。在2024年“NIO IN”发布会上,其推出了国内首个驾驶世界模型“NWM”,定义为一个能全量理解多模态信息、生成新场景并预测未来的自回归生成模型。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:蔚来

NWM能在空间上“想象重建”物理世界为可编辑的虚拟场景,在时间上“想象推演”数十秒的未来。在车端,它可在100毫秒内预演216种可能场景并择取最优策略。据官方演示,仅凭3秒历史视频,NWM便能生成长达20秒的未来推演视频,在生成的“平行世界”中评估行动后果。它还融合激光雷达、地图及语音指令,实现全方位环境理解。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:蔚来

云端,蔚来搭建了NSim神经模拟器,与NWM协同工作,实现从“单一轨迹回放评测”到“海量平行世界对照评测”的飞跃。结合其“群体智能”持续采集真实长尾数据,形成双轮驱动的迭代闭环。

NWM的首个量产版本已于今年6月推送,显著升级了主动安全与智驾功能:新增驾驶员失能处置(可自主安全靠边)、追尾预防与保护(利用大模型应对被追尾场景)、通用障碍物预警增强。在高速领航中加入了ETC智能通行与更稳健的“智能驾享模式”;在城区点到点领航中,实现了车位收藏与跨楼层自主寻路等高级功能,展现了世界模型在复杂场景中的强大认知与推理能力。

华为WEWA 架构

面对世界模型与VLA的路线分野,华为给出了自己的答案:“WA(World‑Action)”模型,即直接从多模态感知信号映射到控制动作,摒弃语言中间层。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:华为

华为智能汽车解决方案BU总裁靳玉志明确表示,不会追随VLA潮流,因为跳过语言层能避免抽象损失,确保在空间感知与实时响应上的绝对优势。

华为的ADS 4平台据此演化出WEWA架构:云端“World Engine”通过海量仿真与真实数据训练世界模型;车端“World Action”模型则直接依据感知数据输出控制指令。为获取最完整的环境信息,华为不惜成本,在问界M9等最新车型上部署多达4颗激光雷达。靳玉志坚信,这条高投入路线是实现安全、可靠高阶自动驾驶的唯一正道。

商汤绝影:“开悟”世界模型与生成式仿真平台

商汤绝影选择了另一条路径:聚焦云端,用世界模型赋能仿真与数据生成。其推出的“开悟”世界模型及平台,旨在成为自动驾驶的数据“加速器”。

特斯拉引爆技术核弹!「世界模型」如何彻底改写自动驾驶游戏规则?

图片来源:商汤绝影

“开悟”可生成长达150秒、多视角时空一致的1080p高保真驾驶场景视频。用户能自由编辑道路、车辆、天气等要素,一键批量生成如加塞、追尾等高危或稀有场景。目前,商汤正与智己汽车合作,构建端到端数据工厂。其发布的WorldSim‑Drive数据集包含超百万段生成片段,覆盖海量天气、路况。据悉,一块A100 GPU的日生成数据量,堪比10辆实车采集效率。通过合成数据弥补长尾空缺,商汤展示了世界模型在降本增效、加速训练方面的巨大价值。

四、世界模型 VS VLA:自动驾驶终局路线之争

当世界模型高歌猛进时,以大型语言模型为核心的视觉-语言-行动模型(VLA)也拥趸甚众。理想、小米等厂商已开始量产推送VLA方案,路线之争愈演愈烈。

VLA主张将视觉感知转化为语言描述,利用LLM的常识与推理能力来理解场景、生成决策。它与世界模型的核心差异鲜明:

结构与表示

世界模型构建可演化的物理世界内部模拟器;VLA则倚重语言作为中间表示与推理引擎。

推理路径

世界模型通过在潜在空间中进行“如果-那么”的因果推演来决策;VLA则通过语言链路的逻辑思考与规则应用来输出指令。

能力与应用

世界模型擅长长时序、多主体交互的物理一致性仿真,是闭环测试与策略优化的利器;VLA则在理解复杂语义指令、利用互联网规模常识处理长尾场景上独具优势。

这场路线之争远未终结。世界模型更贴合驾驶的物理本质,而VLA的通识能力亦不可小觑。未来,两者或许并非取代,而是走向深度融合。

AI先驱李飞飞近期撰文强调“空间智能”,她指出,当前大语言模型虽精通文字游戏,却对三维物理世界缺乏扎实理解。而通过想象、推理与交互来认知真实环境,正是世界模型所代表的未来方向。

无论自动驾驶的终极形态如何,世界模型都已在技术演进史上刻下深痕。这场由特斯拉添柴、全球巨头跟进的智力竞赛,正将我们推向一个更智能的出行未来。你更看好哪条技术路线?欢迎分享你的见解,与我们一同探索前沿!

相关问答

特斯拉公开了哪些专利?-ZOL问答

有人常说特斯拉公开专利推动了中国新能源汽车发展,但具体公开了哪些专利?听说主要是外观设计类,核心技术专利似乎并不多。仅靠外观专利真的能带来实质帮助吗?...

特斯拉公开了多少专利_车坛

特斯拉公开了多少专利2023-07-17陆阳平最佳答案特斯拉公布的专利技术一共有387项。涉及到的方面有:1、电动汽车综合控制。电动汽车是指以车载电源为动力,用电机...

特斯拉汽车专利数量及公开情况解析-ZOL问答

每当刷到电动车相关的短视频,总能看到一些特斯拉粉丝提到,正是因为特斯拉公开了专利,才推动了中国电动车行业的崛起。然而,具体去查证时却发现,并没有人能准确...

特斯拉公布的技术有用吗?

特斯拉公布的技术是非常有用的。首先,他们引领了电动汽车技术的发展,并推动了可持续能源的应用。其次,特斯拉在自动驾驶技术方面取得了显著进展,这将提高驾...

特斯拉免费专利有哪些?

特斯拉在美国拥有多达100余项专利,包括电池组保护系统、过量充电、以及电动马达中改革的转子结构等,这些专利都将会开放给“善意”的用户无偿使用。尽管此消息...

特斯拉开源的技术有哪些?

特斯拉开源的技术包括其电动车的设计和生产工艺,其中最著名的是其电池技术。特斯拉开源了其电池管理系统(BMS)和超级充电站的设计。BMS能够监测电池的状态和性...

特斯拉造车技术有多牛?

特斯拉公司在造车技术方面的确具有很高的创新性和技术水平,以下是一些展示特斯拉造车技术实力的方面:1.电动驱动系统:特斯拉是第一家在大规模生产中使用电动...

特斯拉火箭技术有多强?

特斯拉火箭技术选装了空气推进器的配置,凭借SpaceX的推进器,新款Roadster毫无疑问能拿到全球加速最快量产车的头衔。即使没有这个变态的升级包,1.9秒的加速成...

特斯拉没有刹车踏板的是哪个?-太平洋汽车

没有这款车型,特斯拉生产的所有车型都使用刹车踏板。当机动车行驶时,没有必要使用制动踏板。需要开启车型的单踏板模式,只用油门踏板控制机动车的刹车和油门。...

特斯拉到底有什么技术,为什么都说特斯拉高科技,电动车标杆?

电动汽车还是中国的比亚迪首先发明出来并且成功量产的,特斯拉至少晚1-2年。但是现在感觉好像特斯拉成鼻祖一样是由于特斯拉是美国品牌,加之美国的市场营销比国...