基座模型负责人詹锟出席NVIDIA GTC 2026大会,发表主题演讲并发布下一代自动驾驶基础模型MindVLA-o1。该模型通过五大技术创新,构建面向物理世界的智能自动驾驶基础模型,旨在实现更远感知、更深思考、更稳行动、更快进化与更高效部署。
詹锟表示,当视觉、语言和行动统一到一个模型中时,它已不仅是自动驾驶模型,而是逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人领域。自动驾驶是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。
自2021年启动辅助驾驶自研以来,技术架构经历了多轮关键迭代。2024年,随着端到端+VLM双系统架构量产交付,辅助驾驶首次实现跨场景、跨任务的统一理解能力。2025年,将空间理解、语言理解与行动决策统一到同一模型框架,构建基于VLA、世界模型与强化学习三大技术栈的VLA司机大模型,并于8月随理想i8交付正式推送,9月向AD Max用户全量推送。
截至2025年底,VLA司机大模型月使用率达到80%,VLA指令累计使用1225.4万次。春节期间,理想辅助驾驶总里程达2.5亿公里,VLA指令使用次数达130.3万次。规模化用户验证与真实场景数据积累,为下一代自动驾驶技术演进提供了基础。
理想汽车此次发布的MindVLA-o1架构以原生多模态MoE Transformer为核心,通过五大技术创新实现能力提升。
在感知层面,理想采用以视觉为核心的3D ViT Encoder,利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构。同时引入前馈式3DGS表示,将场景拆分为静态环境与动态物体分别建模。
在思考层面,理想引入预测式隐世界模型,在隐空间中模拟未来。训练分三阶段:用海量视频数据预训练Latent World Token构建未来表征;在MindVLA-o1中持续世界模型推演形成隐空间未来推理能力;将世界模型、多模态推理能力及驾驶行为联合训练与对齐。模型不仅能理解当前场景进行逻辑判断,还能在隐空间中提前“想象”未来画面,实现更深思考。
在行为层面,理想汽车构建统一行为生成机制。MindVLA-o1使用VLA-MoE架构,引入专门的动作专家从三维场景特征、导航目标、驾驶指令等多维输入中提取信息。
在模型迭代层面,理想汽车构建闭环强化学习框架,使模型能从真实数据学习,也能在世界模拟器中持续探索和优化策略。传统逐步优化式重建升级为前馈场景重建,使系统能瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。
在部署层面,理想汽车提出面向端侧大模型的软硬件协同设计定律,将模型结构与验证损失建模,结合Roofline模型刻画硬件计算能力与内存带宽限制。
记者获悉,MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。该框架由四大核心模块组成:MindData统一VLA数据引擎,负责大规模数据采集、清洗和自动标注;MindVLA-o1统一原生多模态VLA模型,可理解环境、进行推理并生成驾驶行为;MindSim可控多模态世界模型,用于生成复杂驾驶场景并支持大规模闭环训练;RL Infra强化学习基础设施,通过奖励模型和策略学习使系统在仿真与真实环境中自我进化。
四部分协同形成完整闭环,使AI能够感知、理解并在物理世界中自主行动,并持续学习。从结构上看,该系统如同一个“数字大脑”:感知层对应视觉皮层,推理与规划如前额叶,场景生成似运动皮层,强化学习类似多巴胺反馈,实现了感知、理解、行动和持续优化的完整闭环。
该框架不仅服务于汽车,也可扩展至及各种物理系统。理想汽车表示,车是最大号的,其本质是在构建硅基生命体的躯干星空体育在线入口与大脑。理想汽车将持续投入前沿研究及核心技术自研,坚定迈向全球领先的具身智能企业。