理想高管回应宇树王兴兴质疑:VLA就是自动驾驶最好的模型方案
扫一扫
分享文章到微信

扫一扫
关注豌豆财经网微信公众号
12月10日消息,在今年8月份的世界机器人大会(WRC)上,宇树科技创始人王兴兴质疑VLA(视觉语言动作模型)的一番言论,引起业界热议。
王兴兴称,对于当前机器人大火的VLA路线,他持有一定的怀疑态度,并直言称“这是一个相对傻瓜式的架构”。
原因是当VLA模型与真实世界交互的时候,背后的数据质量、数量,并不太够用。
而今日,理想汽车自动驾驶研发高级副总裁@ 郎咸朋在微博发长文,回应了此事。
郎咸朋表示,当时没有提出我的观点,一是理想VLA司机大模型还没正式发布,空口无凭;二是我们对具身机器人行业,还处于密切关注阶段。
我跟王兴兴观点最不一样的地方在于,他认为模型架构更重要,但我认为模型的关键是要与整个具身智能系统适配,在此基础上,数据是起决定意义的。
从今年9月VLA正式发布,到12月6日OTA 8.1的推送,经过两个月多的“实践出真知”后,我有两点心得:第一,VLA就是自动驾驶最好的模型方案,第二,具身智能最终拼的是整体的系统能力。
郎咸朋称,理想的VLA本质上就是生成式模型,是在用 GPT 的方式做自动驾驶,只不过生成的Token不是文本,而是轨迹和控制信号。
从目前用户使用的反馈看,在某些场景下理想的VLA已经具备了对物理世界的认知涌现。具体表现是用户会越来越多的发现之前端到端没有的拟人行为。
并且,世界模型更适合做“考场”而不是“考生”,在自动驾驶领域,脱离了海量真实数据谈模型架构都是空中楼阁,我们之所以坚持 VLA,是因为我们拥有数百万辆车构建的数据闭环,这让我们能在当前算力下,把驾驶水平做到接近人类。
针对具身智能方面,要想做好自动驾驶,必须先把自动驾驶当作完整的具身智能系统对待,每一部分在研发过程中要相互配合才能将价值发挥出来。理想的自动驾驶团队与基座模型、芯片、底盘团队协同打造了整个的自动驾驶系统。
同时,模型的关键是要与整个具身智能系统适配,在此基础上,数据是起决定意义的。在机器人领域获取数据相对困难,但在自动驾驶领域,特别是建立起数据闭环能力的车企来说并不是大问题。
理想不仅可以从过去几年积累的10几亿公里的存量数据里进行挖掘和筛选,更可以通过150万车主的日常使用源源不断的获取新的数据。
此外,李想前两天明确提到,未来五到十年,具身机器人核心将有两种形态:汽车类的具身机器人、人形类的具身机器人。
理想的VLA不仅服务于现在的理想各类汽车产品形态,也将服务于未来的汽车类具身机器人。(若风)
投稿邮箱:lukejiwang@163.com 详情访问豌豆财经网:http://www.wdyxw.com.cn
微软回应用户反馈:Windows 11右键菜单AI操作可彻
微软近期在Windows 11 Insider Build 26220.7344版本中推出重要更新,允许用户彻底移除
互联网2025-12-08
头条资讯






















