炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:网易科技)

英伟达具身自主研究团队负责人Jim Fan宣告,机器人领域正在复制大语言模型的成功路径,终局之战已经开始,而他以95%的置信度押注:2040年,机器人技术树将彻底解锁。机器人技术树即机器人从“身体”到“大脑”所需的关键技术,包括底层硬件、中层感知、上层决策等。

在近日举行的AI Ascent大会上,英伟达具身自主研究团队负责人Jim Fan发表了一场题为"机器人学:终局之战"的主题演讲。他系统阐述了一套完整的机器人技术发展路线图——从模型范式革命到数据策略颠覆,并以"伟大的类比"为核心论点:机器人领域将严格复制LLM的成功路径,从预训练到推理,再到自动化研究,"这是对大语言模型成功路径的全面复制。"

Fan开场即直接点出他对大语言模型团队的羡慕:"LLM团队正在享受他们人生中最辉煌的时刻……那么,机器人领域为什么不能也沾沾光呢?"

机器人“大脑”换新方案:旧模型偏“嘴皮子”,新模型长“手脚”

过去三年,机器人行业流行一种叫VLA的训练方法(中文叫“视觉-语言-动作模型”)。英伟达自己的Groot和另一家明星公司Pi都用的这套。

但Fan直接开怼:这套方法说白了就是“语言-视觉-动作模型”——大部分算力都喂给了语言模块,语言是老大,视觉和动作只能排后面。结果是,机器人学了一堆知识和名词,但物理操作和“动词”能力明显不行。

英伟达的新方案是:先看世界怎么动,再学自己怎么动。

Fan团队推出了新模型,叫“世界行动模型”。逻辑很简单:第一步,用海量视频训练机器人预测“接下来世界会发生什么”(比如杯子倒了水会洒);第二步,用少量操作数据微调,让机器人把注意力放到真实任务上;最后用强化学习收尾。

具体产品叫Dream Zero。它能一边预测画面一边输出动作——画面预测对了,动作就执行;画面预测错了,动作就失败。实验显示,它甚至能零样本执行从没见过的软体操作任务。

遥操作之死:人类视频成为机器人数据主粮

数据策略上,Fan指出遥操作同样走到了终点。问题的本质是物理极限:

他提出的替代路径是"类FSD方案"——让数据采集无感化、背景化,就像特斯拉FSD悄悄上传驾驶数据一样。英伟达团队开发了MANUS系统(与五指机械手实现1:1映射的轴骨架),并用Ego Scale方案证明了以人为中心视频的颠覆性潜力。关键数字如下:

最终模型能够泛化到卡片分类、操作注射器、液体转移等高灵巧度任务,"也许有一天我们会拥有家庭机器人护士。"

更值得关注的发现是:Fan团队发现了机器人灵巧操作的神经缩放定律——"在最初针对语言模型的神经缩放定律提出六年之后,我们发现了一个简洁的对数线性数学方程,同样适用于机器人灵巧操作。"预训练时长与最优验证损失之间存在非常清晰的数学关系。

他明确预测:未来一两年内,遥操作数据需求将下降至几乎可以忽略不计,以自我中心视频为核心的数据范式将全面接管。

"计算量=环境=数据":模拟器革命

强化学习训练环境的规模化,是机器人领域的另一大瓶颈——"我们目前还无法实现100万个并行训练环境的目标,如果用传统方法,那需要100万个真实机器人。"

英伟达的解法分两步:

Real2Sim2Real:用iPhone拍照→3D扫描提取物体→在物理模拟器中自动重新合成,"iPhone基本上就变成了一个口袋世界扫描仪。"

Dream Dojo:基于视频世界模型构建的神经模拟器,实时输出RGB图像和传感器状态,"不涉及任何物理方程,也不涉及任何图形引擎。"

这使得一个等式成立:"计算量 = 环境,环境 = 数据。" Fan随即引用了黄仁勋的话作为注脚——"买得越多,省得越多。"

三大成就与2040年终局

Fan将机器人技术的终局拆解为文明游戏式的"三大成就":

第一成就——物理图灵测试:让人无法分辨是机器人还是人类在完成任务。Fan判断:"大约还需要两到三年时间。"

第二成就——物理API:机器人像软件一样通过API和命令行调度,支撑"灯塔工厂"(原子打印机:输入Markdown设计文件,输出完整组装产品)或湿实验室中化学、生物、医学领域的科学发现自动化。

第三成就——物理自动化研究的顶峰:机器人能够设计、改进和构建下一代自身,"其能力将远远超出人类的范畴。"

时间线上,Fan援引了一个精确类比:AI领域从2012年AlexNet到如今逼真视频生成模型,历时14年。"2026年正好介于2012年和2040年之间。而且技术发展并非线性,而是呈指数级增长。"

乐玩app官网入口,hth,

乐玩唯一官网相关资讯:华体会体育官网,