地瓜机器人隋伟：从自动驾驶汽车到机器人具身智能技术演变之路

之于是有云云的念法，是由于正在做《机械人新纪元》栏目访说报道这几年里，总会赓续有人问：你们的内容有没有视频格式？

再加上身正在此中的咱们，也亲身感触到了内容宣传介质的蜕变，越来越众读者初阶风气“阅读”音频和视频，于是就有了做视频播客的念头。

当时念到做这个中心播客，最先念到的是，现正在的具身机械人素质上仍旧是自愿驾驶汽车的一个手艺延续。

于是，就有了念请本即是从自愿驾驶手艺探究转向具身智能手艺探究的隋伟博士来做咱们第一期节方针嘉宾的念法。

2026年春节回来后，咱们邀请地瓜机械人算法副总裁隋伟来咱们这里做客，正在这之后正在团队内几位同仁联合发奋下，有了行家本日看到的这期节目。

第一期节目咱们将中心定为“从自愿驾驶汽车到机械人，具身智能的手艺演变之途”，隋伟博士正在一个众小时的访说流程中，稠密输出了豪爽音讯。

当然，这些只是本期内容的冰山一角，咱们自负这期节目能让你对具身机械人有更长远的了解，也自负它能为你带来些许诱导。

隋伟：我正在读博士的时辰就接触过，但那时本来即是用呆板臂来完毕操作和抓取职业，由于当机会器人还处于对照早期阶段，是从预编程方才往深度练习、智能化迁徙的一个阶段。

咱们当时重要是用3D视觉去指点呆板臂做这种物体的抓取，用的干系手艺的话，本来如故模块化的手艺。

Q：您是2019年出席地平线的，然后初阶做自愿驾驶干系手艺探究，当时自愿驾驶是何如的一个兴盛阶段？当时有做哪些就业？

隋伟：2019年自愿驾驶处于L2刚要初阶普及，L3限于高速场景，都市NOA还处于极端早期的demo阶段。

2019年的时辰，本来像外洋，像特斯拉（云云）走的对照疾的，仍然要初阶往端到端宗旨转，仍然有个BEV干系算法，传感器这些构造也从单目前视构造走到了环顾构造。

咱们当时正在做的重要是单目往环顾感知，即是L2往L3、高速的L3（场景）搬动的阶段，我当时重要做的是深度猜测，也是用来做避障，其它即是3D检测，本来也相当于是BEV的一个前身。

隋伟：我当时正在地平线正在的部分叫平台与手艺部，咱们当时是给悉数地平线编制的事迹部，像智能驾驶事迹部、机械人事迹部，供应少许算法和计划。

因机械人也好，自愿驾驶也好，本来都属于一种具身的样子，或者咱们叫机械人探究样子，咱们内部也会说，自愿驾驶车辆本来是一种额外的机械人。

比如，一切这些，就不管是室内的消费机械人也好，或者像自愿驾驶也好，本来它都必要处理A点到B点的挪动题目，此中涉及到定位、导航、避障，涉及到谋划。

于是咱们当时重要的职业即是给这两个事迹部供应少许算法，加倍是像3D视觉感知类的，又有定位筑图类的算法。

Q：自愿驾驶相当于是把道途这个事儿切成许众个场景来做，假设是具身机械人的话，正在某个特定场景内里，它也必要把特定场景中的众个职业切分技能告终正在这个场景的开端通用吗？

隋伟：对，于是我感触像VLA的话，本来它跟着数据量或者模子的容量巨细，通用性老是相对的，正在某一个场景下去处理一类或众类职业，那我感触这本来是对照合理的一个范式。

自愿驾驶本来第一它有博弈的和平性央求，有高效性央求，又有舒畅性央求，这三者央求极端高。由于也即是正在2024年，端到端，加倍是一段式的端到端起来之后，城区的这种NOA才到了好用的水准。

隋伟：极端紧要，可能以为是具身智能的一个拐点，但具身智能并不是一个新的观点，即使是正在2022年之前，本来咱们正在种种学术聚会上都有具身智能这个版块。

我记得正在2022年加入一个VALSE聚会的时辰，正在天津那里就特意有一个workshop正在讲具身智能，但当时都正在处理少许抓取、planning筑模的少许题目，但当时具身智能没有极端炎热的一个水准，用的也都是像呆板臂云云少许方便样子的少许机械人。

到2022岁暮特斯拉颁发了Optimus之后，把行业带到了一个新的高度，本来相当于是给这个行业提出了一个新的困难。

由于从人形机械人这个样子来看，本来不但要处理这些操作的职业了，又有少许运控的职业，又有少许硬件困难，本来是启示了一个新的周围。

Q：从产物样子上来看，本来您无论是正在地平线如故正在地瓜，最终做的都是芯片，然而从手艺探究周围来看的话，您正在此前后就业有哪些变革？

从底层AI感知来看，我以为没有太大区别，加倍是像感知算法，像地平线和地瓜推出的BPU这个AI加快模块，它本来是起初正在自愿驾驶中获得大范畴验证，咱们许众AI感知算法都有大范畴量产阅历，芯片和算法都仍然正在自愿驾驶场景内里获得了打磨，那我要做的事变即是把这些仍然打磨好的算法，又有之前的少许阅历，迁徙到地瓜机械人来处理具身智能周围的题目。

但本来真正来到地瓜后，我发明要处理的题目还长短常众，好比像正在自愿驾驶的时辰，咱们不必要闭切车辆的样子，不必要闭切数据是怎样收集的，由于自身自愿驾驶数据收集就很高效，不管是收集车也好，或者是数据闭环也好，都长短常高效的收集式样。

正在机械人周围，目前硬件还没有联合，数据收集也没有收敛，数据收集本钱高，怎么去找到一条更合意的陶冶数据的获取计划，况且包管它是有用的，以及用完这些数据完毕陶冶后，让它联结下逛的驾御去完毕职业，这个本来有许众题目要处理。

自愿驾驶本来不必要闭切太众底层驾御，具身智能咱们是必要闭切的，由于现有这些模子本来无法满意精致化操作的央求，于是必必要和古代驾御计划、力控计划联结起来去完毕云云的少许职业。

Q：自愿驾驶和具身机械人本来是人工智能差异阶段的两个紧要手艺载体，咱们现正在再来看这两个编制的话，它们有何如的肖似度？您之前正在地平线做自愿驾驶有哪些手艺可能沿用过来，有哪些手艺不行沿用、但可能模仿？

隋伟：我感触自愿驾驶是深度练习举行大范畴落地践诺一个极端紧要的场景，它的兴盛道途是可能给具身智能供应极端紧要的参考，以至汽车工业自身的兴盛也能给具身智能供应参考，本来我还特意探究了一下汽车兴盛史。

汽车本来一初阶也不是像现正在云云四个轮子、一个宗旨盘这种圭臬化产物，大致正在一八九几年的时辰，当时相似是飞驰发了然第一台内燃机三轮车，宗旨盘也不是圆形的，而是有点像摇杆相似去驾御前向的转向，这是第一台内燃机式三轮车。

云云的车本来它出来之后，满意不了民众需求，由于速率一疾就容易翻车，于是到后面慢慢迭代出了四轮的样子，然后慢慢把宗旨盘酿成了圆形，这个差不众仍然是十年之后的事了。

再到1908年的时辰，四轮车也许满意人类出行需求了，于是当时福特就发现T型（车）坐褥线，谁人时辰汽车的产量初阶发作式增加。

那正在早期的时辰，方才说的早期车辆谁人样子和现正在的具身机械人差不众，每年的产量大致也即是几千台，都是行动少许华侈品或者是少许特别物，然后正在少许有钱有本钱的人手里去做保藏出现。

T型车坐褥线浮现之后，车的样子慢慢能满意人类的需求了，产量也慢慢加添到了差不众一年1500万台，价值也消重了。只然而谁人时辰的人工智能软件手艺的兴盛没有那么疾，于是从来要到一百众年之后，跟着深度练习手艺的兴盛，才初阶敏捷智能化。

目前这个阶段咱们看到，它的硬件并没有收敛，样子也没有收敛，比如自正在度、传感器、闭节的样子、个数，又有身体的样子，本来都没有齐全收敛。

处于像三轮车谁人时辰的谁人阶段，然后也不也许齐全满意这个职业的需求，加倍是繁复的少许操作职业，精致化操作的职业，于是它有一个阶段要完毕硬件的迭代。

隋伟：BEV全称是Birds Eye View，是一个鸟瞰视角，本来它不是一个新的观点，正在3D重筑、3D视觉里很早就存正在了。

BEV正在自愿驾驶内里火起来的是正在2019年-2020年前后，也是从特斯拉AI Day宣布了FSD之后，然后BEV正在正在自愿驾驶周围是可行的，从那时初阶慢慢兴盛起来，成为主流。

但这种转换会有许众题目，第一是许众时辰这个假设是不创设的，咱们假设道途是平的，本来许众的道途它都不是平的，你认真看的话，本来道途中心是突出的，双方是凹下去的，它不是一个平面，那这就会给这个测距带来差错，况且这差错会极端大。

于是BEV感知本来是处理了感知后惩罚，相当于是把后惩罚也交给模子去履行了，于是它输入的是众视角的图像，输出直接是正在3D空间里输出的结果。

隋伟：4D标注编制本来重要是给BEV感知来供应真值的，由于正在深度练习时期，或者说人工智能时期的落地场景中，最紧要的即是数据，有众少数据即是有众少智能，于是真值标注极端症结。

由于BEV它的感知模态发作了变革，向来正在这种图像感知时期的时辰，你输入的模子是2D的图像，然后输出也是正在图像空间的结果，也即是咱们所说的所睹即所得，它的感知结果和输入是正在统一个空间内里的。

BEV做的是3D重筑，从图像的数据直接输出3D结果，既然输出的是3D结果，那模子的陶冶也必要3D线D Label编制即是要处理这个题目。

隋伟：BEV感知必要的数据是以短视频格式浮现的，比如，一辆车装有11个camera，那它本来会记实这11个camera正在45秒到1分钟云云一个年光序列内的数据来行动一个陶冶样本。

这个视频（片断）本来正在业界大凡都叫clip，咱们大致有到200万clips阁下的数据，然后正在BEV上能有一个对照好的一个成绩了。

隋伟：正在自愿驾驶内里的数据量的需求本来是有一套估算的技巧的，然而条件条目是你要确定它的场景、需求，以及职业。

以动态物体检测为例，3D的物体检测，我要检测这个场景里车辆和行人云云的一个职业，那咱们怎样去测算它的数据操纵量呢？

起初咱们会确定场景、需求、职业，好比说职业就3D检测，那场景的话即是好比说城区、高速或墟落，一切这些场景都要蕴涵正在内。然后我要有这个职业的央求，好比说它的召回是众少，正确率是众少，有正确的一个目标。

有了这种评判圭臬，咱们就去猜测这个模子，好比说我一初阶的时辰惟有10万clips，用这10万clips陶冶模子做一个评测，那看这个大致的模子的机能是正在什么地方。

然后咱们会一直地加添数据去绘制云云的一个模子发展弧线，跟着数据量的增加，看模子机能的增加状况。

大大批状况下这个模子的增加弧线并不是线性的，而是跟着数据量的加添，它的机能的增加会越来越迟缓，犹如于一个log样子的这个弧线。

第二个阶段即是VLM+端到端，这是一个极端短暂的中心样子，本来方针即是用来处理上一个阶段，VA面对豪爽的corner case的题目。

固然说端到端的好处是它素质上是一个仿效练习，它能处理拟人化的题目，即是可能正在和平、舒畅和高效这三个自愿驾驶的评判圭臬内里去都抵达一个对照好的成绩。

加倍是拟人化，这个是许众古代的法则技巧是做不到的，然而它的题目是豪爽依赖数据，没有睹过的少许场景，它的成绩就会极端差。

于是当时成绩即是，你会看到，你给它一个自愿驾驶的场景图片，然后喂到VLM里，你问它毕竟我该怎样驾驶，本来它可能回复的极端好，由于它睹过许众数据，它明白交通法则，它也明白该做什么样的响应。但它的这个响应有恐怕是一个说话的刻画。

假设把这个VLM稍作操作的话，它可能是一条毛糙的轨迹，然后把这条轨迹给到端到端内里，本来即是念行使它的这个常识性去处理corner case的题目。

但这一代计划有个最大的题目是，端上的算力不敷的状况下，这两个是跑正在双编制，这两个编制是差异步的，就会导致它们之间的陶冶和迭代会极端繁复，于是就会浮现第三个阶段，第三个阶段即是VLA。

VLA本来即是VLM和端到端的云云一个一体化的阶段，咱们现正在听到的两段式的端到端，就属于方才说的VLM+小的端到端模子，一段式端到端即是VLA。

Q：现正在能看到的具身机械人，除了舞蹈，即是叠衣服，如故planning的谁人职业，为什么现正在机械人的端到端如故只可履行这些职业？

隋伟：其告终正在VLA的话，它仍然可能做到电机信号这个层面上，就给输入数据，然后输出这些闭节指令，然后直接去做履行。

由于叠衣服、线缆、打包这些都属于少许繁复的柔性长程职业，这是古代先检测后履行的式样处理不了的，当然咱们也看到本来VLA之前也正在做少许抓取和安放的少许操作，这些其适用古代技巧的作用会更高少许。

但VLA的任务是要处理通用性和技巧性的题目，即是它也许像VLM相似自正在地到任何场景中去履行苟且一个职业，这是它的任务。

隋伟：正在自愿驾驶周围，我感触2019年-2020年即是一个跨过了模块化，进入到端到端云云的一个年光节点。

本来端到端也是分程序的，第一步是先处理了感知后惩罚，第二步是处理了planning的题目，于是是感知才干越来越强，然后端到端越来越彻底，最终到这个planning。

正在这个具身智能周围，我感触倒不是说模块化和端到端的题目，这个本来仍然是共鸣了，不管是用VA也好，用VLA也好，我感触目前行家都邑以为端到端是最终的手艺样子。

但获取数据的条件又正在于要正在一个什么样的场景、什么样的职业，这些明晰下来之后，然后即是高效的这种搜集数据，修建数据闭环，去进步智能化。

Q：确凿数据和仿真数据正在两类编制中的价钱，和正在这个年光节点上来看的话，它的旨趣会有不相似吗？

隋伟：自愿驾驶的话，目前的数据情景是，绝大一面的陶冶数据如故靠实车收集，加倍是数据闭环、影子形式这些式样去及时回传有用的corner case数据去做模子的迭代。

仿真数据正在自愿驾驶里本来重要如故掌握评测，加倍是像这种world model可能驾御的，用这种可控式样天生这种样本数据，用来做少许特定场景的评测，评测结果好比说抵达了少许目标央求之后，然后再去做少许发版。

最早的有仿真，然后有遥操，以及旧年振起的UMI数据，但这些目前还都不也许齐全撑持具身数据的需求。

于是仿真数据和确凿数据最大的题目如故正在于，仿真数据它有域的gap，Real2Sim的gap，这种gap本来是很难逾越的，由于确凿场景的数据本来长短常繁复众样的，然后仿真的数据它相对会对照简单。

那前期假设说正在具身周围数据收集能对照高效的状况下，咱们确定不会用仿真数据，只然而说现正在对照贫寒的状况下，会回过头来再去看仿真数据能爆发什么样的少许价钱。

我感触，一方面，正在0到1阶段陶冶数据的状况下，仿真数据能起到什么样的感化，以及正在连续加添仿真数据的时辰，它对模子的这种发展能带来众大收益，这个是我要处理的。

第二，目前这种gap也许众，好比说图像级另外、传感器级另外Sim2Real gap，又有职业级另外gap、场景级另外gap。

那是不是说仿真数据正在好比说像这种职业级另外gap上会更小一点，这些我感触目前还都是必要来探究的。

Q：视频数据、仿真数据、遥操数据、UMI数据，现正在根本上即是这四大类，由于现正在本来数据如故很不敷，很缺数据的一个形态，咱们本来心愿越众的数据越好，这些数据都收集上来，它的交融利用会有gap吗？

隋伟：我感触说数据怎样操纵的话，起初咱们要看具身智能它恐怕的模子的陶冶范式是什么样的，那其告终正在正在人工智能周围有三个大的利用宗旨：第一个是大模子，第二个是智能驾驶，第三个是具身智能，底层都是深度练习手艺。

那大模子的陶冶范式，它起初是有预陶冶，预陶冶阶段必要豪爽的数据，然而这个数据的质地央求可能不消非常高，正在预陶冶阶段重要正在干一个事变，即是next token prediction这个职业。这个token它可能是说话，可能是图像，也可能是作为。

第二个阶段叫SFT，即是有监视陶冶，学会收集少许高质地的样本去做陶冶，来把这个通用的模子去往专用性去指点。

第三个阶段是正在这个根基之上会有加强练习，加强练习可能了解为相当于是向下教一个学生，这个学生仍然进程前面的预陶冶和SFT到了一个甲第生的阶段，好比说测验到能到80分了，那通过加强练习的线分，这个是三个陶冶的程序。

自愿驾驶本来咱们看现正在也正在走这个道途，加倍到VLA之后，也正在走这个道途。实具身也是正在走这三条道途，假设说是往通用性走的话。

那咱们看这三个阶段必要的数据，预陶冶阶段的话，本来它必要豪爽的低本钱的数据，它精度央求没那么高，正在SFT它就必要极端高质地的数据，然后再到加强练习阶段的话，它需倘使怎样样去给它一个反应和交互。

于是咱们再回过头来看这几种数据的收集式样，仿真咱们本来可能先扔开不说，由于仿真的这个gap的题目，我感触很难正在短年光内举行处理的，又有少许数据资产的题目，剩下的即是UMI、遥操。

其它即是正在获得预陶冶的根基之上，然后再通过遥操获取的高质地数据，由于遥操本来收集的是机械人的模态数据去做微调，然后让机械人正在某些特定职业上抵达对照好的成绩，末了通过加强练习来最终再做一个提拔，这是咱们以为的范式。

现正在许众正在工业或其它贸易场景下，用的都是轮式底盘，再加上反弓式的腰部，以及双臂，双臂自正在度大凡也都是七个自正在度的仿生臂，这个咱们是能看到少许收敛的态势的。

好比说像自愿驾驶的话，向来每个传感器都有一个独立的估量单位，但到后面的话，它会慢慢召集到一个大脑上。

隋伟：本来是有特意针对具身的芯片的，像地瓜，咱们推出的旭日S600芯片，本来即是特意面向具身行业的。

然后具身的芯片本来和智驾的芯片，除了少许工规和商规的央求之外，正在许众底层模块上，本来许众都是相同的，由于自身都是做这个AI加快算法的，那区别就正在于它的少许外围接口。

好比说像车辆的传感器的品种和数目和具身内里的品种和数目都是不相似的，这方面会有少许区别，但底层架构本来都是相同的，像这种AI加快器，又有像这种MCU，本来目前都是共用的。

于是芯片来说，并不是说必要收敛，重要是怎样用好这个芯片，由于具身机械人还没有大范畴的量产，于是正在这一块本来恐怕必要做的就业更众少许。

轮式的话，相当于它可能用对照成熟的挪动战术做少许方便的挪动，然而它的题目是必要改制场景，好比说做不了越障，然后对少许斜坡这些也有央求。

全人形的话，双足的甜头是它具备越障的恐怕性，好比上楼梯，种种各样的窒碍物，外面上只消人能过的地方它都能过，然而题目是正在于它现正在的手艺难度极端大，即是双足的通用行走才干目前本来还没有齐全处理。

咱们看到的这些许众都是瞎眼的运动，然而假设要跟确凿的寰宇去做交互的时辰，这个本来目前还没有到齐全也许落地的水准。

正在工业场景下，本来许众状况下它是可能举行场景改制的，好比这种挪动，我可能去掉少许楼梯，转变成少许平面或者斜面，少许方便的斜面、斜坡，能让这个机械人的轮式能自助挪动，本来它能满意需求的，那底层的逻辑本来如故通用和专用的一个区别。

像双臂或者双足的全人形的话，它是通用人工智能的最佳的载体，由于它的运动上限、才干上限极端高。

本来动摇重要点正在于，我会发明它的硬件上限本来极端高，咱们本来也正在用宇树G1做少许拓荒，咱们能做少许舞蹈作为，但稍微激烈一点的舞蹈作为，它不长短常牢固。

然而起码从春晚的这个成绩来看的话，它的硬件上限本来极端高，你可能看到它可能做种种各样的翻跟头、很高的起跳和下降的这种作为，于是我感触这个呈现出了它的这个硬件的上限。

本来咱们可能对照谁人无人机集群扮演，本来咱们看到现正在的豪爽的这种人形机械人阵列式的扮演，本来它成绩长短常动摇的，和无人机的谁人扮演它的需求是犹如的。于是我感触从无人机的这种扮演看的话，本来它是真的存正在云云的需求的，那机械人本来也会存正在，当然机械人它的这个阵列扮演，我以为它只是一种载体，起初它证实了这个硬件具备云云的才干，但它这个需求能不行连续，还要看它这个载体承载的内容，好比说它扮演的格式或者扮演的内容能不行连续吸引民众，那我感触这个恐怕是一个对照紧要的点。于是我以为这个扮演确定是有需求的，况且是一个对照好的目前这个阶段手艺也许方才满意的一个需求。

Q：参照自愿驾驶汽车的贸易化途径，具身机械人的贸易化可能划分为几个阶段，以及各个阶段会有哪些症结手艺成熟行动符号？

隋伟：参考智能驾驶的话，起初咱们要看硬件的成熟度，硬件的上限要足够高，这个上限不单是机能的上限，又有它的牢固性的上限。

例似乎样是机械人，第一你要满意圭臬化坐褥，第二你正在工场里或其它场景里就业，你能牢固就业众久，这些底层的硬件肯定要足够成熟，上限高，然后也极其牢固，我以为这个是第一步。

我以为对照合理的目标应当是正在有遥操的状况下，它的就业作用能抵达人的80%，以至到100%，这是第一点，这个是磨练硬件的成熟度。

第二个阶段是这些硬件渐渐满意需求后正在场景中获得利用，好比说从感情价钱，再到有少许紧急场景，或者是劳动力本钱极端高的场景，加添机械人的产量。

即是有50万台或者100万台机械人正在场景内里就业，哪怕是通过遥操的式样，它收集的数据是直接有用的数据，这种数据它对具身机械人带来的智能化增加会极端疾，于是我以为是第二个节点。

第三个节点是有这些手艺才干或者是这个范式验证告捷之后，就可能推到更众更通用的场景里，比如C端场景、家庭场景。

联系人：	王先生
电话：	15640228768
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们