星空体育智能科技：理想汽车发布下一代自动驾驶基础模型MindVLA-o1

公司新闻 2026-03-18　浏览量：　

　　基座模型负责人詹锟出席NVIDIA GTC 2026大会，发表主题演讲并发布下一代自动驾驶基础模型MindVLA-o1。该模型通过五大技术创新，构建面向物理世界的智能自动驾驶基础模型，旨在实现更远感知、更深思考、更稳行动、更快进化与更高效部署。

　　詹锟表示，当视觉、语言和行动统一到一个模型中时，它已不仅是自动驾驶模型，而是逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型，不仅可以控制车辆，也能够扩展到机器人领域。自动驾驶是物理AI的起点，未来这类基础模型将驱动新的具身智能范式。

　　自2021年启动辅助驾驶自研以来，技术架构经历了多轮关键迭代。2024年，随着端到端+VLM双系统架构量产交付，辅助驾驶首次实现跨场景、跨任务的统一理解能力。2025年，将空间理解、语言理解与行动决策统一到同一模型框架，构建基于VLA、世界模型与强化学习三大技术栈的VLA司机大模型，并于8月随理想i8交付正式推送，9月向AD Max用户全量推送。

　　截至2025年底，VLA司机大模型月使用率达到80%，VLA指令累计使用1225.4万次。春节期间，理想辅助驾驶总里程达2.5亿公里，VLA指令使用次数达130.3万次。规模化用户验证与真实场景数据积累，为下一代自动驾驶技术演进提供了基础。

　　理想汽车此次发布的MindVLA-o1架构以原生多模态MoE Transformer为核心，通过五大技术创新实现能力提升。

　　在感知层面，理想采用以视觉为核心的3D ViT Encoder，利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构。同时引入前馈式3DGS表示，将场景拆分为静态环境与动态物体分别建模。

　　在思考层面，理想引入预测式隐世界模型，在隐空间中模拟未来。训练分三阶段：用海量视频数据预训练Latent World Token构建未来表征；在MindVLA-o1中持续世界模型推演形成隐空间未来推理能力；将世界模型、多模态推理能力及驾驶行为联合训练与对齐。模型不仅能理解当前场景进行逻辑判断，还能在隐空间中提前“想象”未来画面，实现更深思考。

　　在行为层面，理想汽车构建统一行为生成机制。MindVLA-o1使用VLA-MoE架构，引入专门的动作专家从三维场景特征、导航目标、驾驶指令等多维输入中提取信息。

　　在模型迭代层面，理想汽车构建闭环强化学习框架，使模型能从真实数据学习，也能在世界模拟器中持续探索和优化策略。传统逐步优化式重建升级为前馈场景重建，使系统能瞬时生成大规模、高保真驾驶场景，支持大规模并行训练。

　　在部署层面，理想汽车提出面向端侧大模型的软硬件协同设计定律，将模型结构与验证损失建模，结合Roofline模型刻画硬件计算能力与内存带宽限制。

　　记者获悉，MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。该框架由四大核心模块组成：MindData统一VLA数据引擎，负责大规模数据采集、清洗和自动标注；MindVLA-o1统一原生多模态VLA模型，可理解环境、进行推理并生成驾驶行为；MindSim可控多模态世界模型，用于生成复杂驾驶场景并支持大规模闭环训练；RL Infra强化学习基础设施，通过奖励模型和策略学习使系统在仿真与真实环境中自我进化。

　　四部分协同形成完整闭环，使AI能够感知、理解并在物理世界中自主行动，并持续学习。从结构上看，该系统如同一个“数字大脑”：感知层对应视觉皮层，推理与规划如前额叶，场景生成似运动皮层，强化学习类似多巴胺反馈，实现了感知、理解、行动和持续优化的完整闭环。

　　该框架不仅服务于汽车，也可扩展至及各种物理系统。理想汽车表示，车是最大号的，其本质是在构建硅基生命体的躯干星空体育在线入口与大脑。理想汽车将持续投入前沿研究及核心技术自研，坚定迈向全球领先的具身智能企业。

上一个：具身智能爆发前夜奥比中光定增获批：98亿加码3D视觉核心赛道返回列表下一个：2026深圳机器人全产业链博览会<

星空体育(StarSky Sports)官方网站-竞技体育尽在星空

星空体育智能科技：理想汽车发布下一代自动驾驶基础模型MindVLA-o1

更多新闻推荐

奥普特：机器视觉为机器人提供了精确的视觉感知能力使其能够识别

近15家机器人产业链企业开年迎IPO新进展

星空智能科技：2024-2025年3D工业视觉行业现状调研及

星空体育科技：什么是3D机器视觉

*合作意向

*电话

*姓名

公司

行业

职位

邮箱

地址

您的留言

您也可以拨打我们的客服电话：0757-86683931 联系我们

快捷链接

产品中心

解决方案

最新动态

业务咨询专线