华尔街见闻

  巴克莱参访波士顿机器人峰会后直言:人形机器人终将到来,但通用自主机器人的时间表远比市场预期保守。安全门槛、硬件瓶颈、数据缺口、算力争夺,四座大山横亘眼前;短期真正确定的机会,藏在仓库、焊接等受控场景的窄任务机器人里。这场革命不是没有,只是比想象中更慢、更贵、更硬。

  巴克莱参观完波士顿Robotics Summit & Expo后给人形机器人泼了一盆不算冷、但足够清醒的水:展示机、原型机、单任务机器人越来越多,行业也接受“AI要进入物理世界”这条路线;但要把完全自主、通用型人形机器人放到人类环境里大规模工作,时间表没有那么近。

  据追风交易台,巴克莱主题投资分析师William Thompson在6月8日的研报告中写道,人形机器人会来,但真正的问题是何时、以多大规模到来。短期更确定的方向,是焊接、物流等受控场景里的单任务或多任务机器人;难度最高的通用人形机器人,还卡在安全、硬件、感知、数据和算力几道门槛前。

  这也解释了为什么很多公司仍停留在试点阶段。机器人不仅要能动,还要在复杂环境中可靠地动;不仅要会识别物体,还要把识别转化为低延迟动作;不仅要训练模型,还要拿到足够的真实世界数据。与此同时,不少人形机器人公司开始纵向整合硬件制造,自己做电机、执行器,或借助汽车供应链压成本、保交付。

  先落地的不是“通用人形”,而是窄任务机器人

  短期部署更容易发生在受控环境:仓库、工厂、焊接、物流。这些场景目标清晰、路径相对固定、意外情况可控,机器人不必像人一样理解整个世界,只要完成有限任务。

  通用人形机器人的难点不在演示,而在真实环境的长尾问题。地面不平、物品摆放混乱、人员移动、光线变化、布局不标准,这些都可能让机器人失效。工厂和仓库的失误后果通常低于公共道路,这让企业更愿意尝试“不完美但可监督”的系统,但这并不等于可以跳过安全和可靠性。

  自动驾驶的经验被反复拿来类比。自动驾驶从早期乐观预期走向更广泛部署,经历了十年级别的安全审查、监管摩擦和公众信任重建。人形机器人也可能先经历一段“人在回路”的阶段:人类远程监督,必要时接管,让系统在真实场景里积累数据。

  安全不是附加项,而是能否规模化的前置条件

  传统工业机器人常被关在笼子里,执行编程好的动作;人形机器人则被设计成进入人类活动区域。这个变化把问题从“机器能不能完成动作”,推到“机器出错时谁承担后果”。

  可靠性直接关系商业价值。机器人如果频繁停机,工厂损失的不只是设备效率,还有产线稳定性和员工信任。框架中提到,AI有望把可靠性从约85%提升到95%以上,但对很多工业场景来说,95%仍可能不够。越接近真实生产,容错率越低。

  安全还包括网络安全。人形机器人本质上是联网的软件定义系统,集成传感器、执行器、AI模型和持续连接。一旦被非法访问、模型被篡改、数据被污染,问题就不只是IT事故,而可能变成物理世界里的运营风险。企业采用之前,会要求系统具备安全架构、更新机制和故障保护。

  Physical AI 还没有自己的“GPT时刻”

  大语言模型的爆发,有GPT-3这样的标志性时刻,也有更早的Transformer架构和自注意力机制打底。机器人领域还没有类似突破:一个能让机器在多环境、多任务、长尾场景中稳定感知、计划并行动的通用架构。

  人类觉得简单的事情,机器往往最难。感知、导航、抓取、平衡,对人来说近乎本能,对机器人却是复杂工程。这正是莫拉维克悖论:逻辑推理、下棋这类人类觉得难的任务,算法可以做得很好;而人类儿童轻松完成的运动和感知,自动化极其困难。

  行业正在尝试几条路径。其一是快慢系统:低延迟控制器负责反射式动作,高层模型负责规划和长期推理。其二是强化学习,让机器人通过试错改进控制策略。其三是VLA模型,即视觉-语言-动作模型,把视觉观察和语言指令转化为动作输出,让机器人理解“拿起红色杯子”这类指令并执行。

  长期目标是机器人世界模型:一个系统能跨任务、跨环境,甚至跨不同机器人身体迁移能力。问题是,物理世界比文本世界麻烦得多。模型不仅要懂,还要在低延迟、低功耗、可控风险下动起来。

  最大的数据缺口,是缺少“机器人视角”的世界

  文本和图像模型吃的是互联网数据。机器人没有这样的资源库。YouTube上有大量人类活动视频,但缺少关节运动、执行器命令、传感器反馈这些关键运动学信息,不能直接教机器人如何与物理世界互动。

  自动驾驶有一个独特优势:数以百万计的汽车可以在公共道路上采集数据。通用人形机器人现在做不到。真实机器人采数慢、贵、风险高,即便远程操作,每台机器每天能运行的小时数也有限,一次严重摔倒或碰撞就可能带来硬件损坏和停机。

  仿真和数字孪生因此变得重要。开发者可以让成千上万个虚拟机器人并行练习,在不同地形、光照和任务中生成数据。它的价值更像“80/20”:先用仿真快速覆盖大量场景,再把有限的真机测试留给最难的部分。

  但仿真到现实仍有缺口。机器人在虚拟环境里学会的动作,到了真实世界还需要校准和微调。特斯拉的Optimus路径就是一个例子:利用自动驾驶仿真经验训练人形机器人,马斯克还描述过“Optimus Academy”的设想,让数万台实体机器人在受控设施中训练,同时配合数百万台仿真机器人运行。

  算力竞争会从数据中心打到每台机器人身上

  Physical AI 对算力的需求分三层。

  第一层是仿真算力。训练人形机器人需要大规模物理仿真和数字孪生,尤其是并行运行大量虚拟机器人,用于生成合成数据和强化学习。这会消耗AI数据中心资源。

  第二层是基础模型训练。VLA模型需要融合视觉、语言、传感器输入并输出动作计划,参数规模可达100亿至200亿级别,训练周期长、GPU消耗高。人形机器人发展越快,与其他AI工作负载争夺算力的压力越大。

  第三层是机器人本体上的边缘算力。部署后的机器人不能把所有决策都丢给云端。保持平衡、避障、抓取,往往需要几十毫秒内响应,大模型必须被压缩、蒸馏或重新设计,才能在电池供电的硬件上运行。NVIDIA的开放VLA模型GR00T N1.6约30亿参数,体现的就是“小型化、可部署”的方向。

  这会同时推高两类需求:云端GPU用于训练和仿真,低功耗边缘硬件用于机器人本地推理。单台人形机器人的感知堆栈成本可达约2万美元,这个数字本身就说明,算力不是软件公司的边际成本问题,而会落进每台机器的BOM里。

  硬件才是最慢的那条腿

  软件可以快速迭代,硬件不行。电机、执行器、传感器、手部结构、电池系统,都要经过设计、供应、制造、装配和反馈周期。没有足够安全可靠的产品,就难以大规模建产能;没有规模化制造,又难以降成本、拿到更多真实反馈。这是典型的鸡生蛋问题。

  行业还缺少成熟的通用零部件。峰会上能看到不少3D打印部件,它们适合原型验证,但不适合低成本量产。目标成本被多次锚定在单台约2万美元,思路借鉴汽车工业:标准化、模块化、减少零件数、让现场快速更换模块。

  手部尤其难。领先设计希望单手达到约22个自由度,但一个相对灵巧度仍有限的人形机器人手,成本仍约2000美元。执行器也是大头,一台人形机器人通常需要30至60个执行器。供应商的竞争不只是卖电机,而是把固件、传感器、安全特性集成进去,提高力矩控制、故障检测和可靠性。

  传感器同样卡规模化。机器人需要视觉、力、扭矩、触觉、平衡等多模态传感能力。高性能触觉传感器、关节力矩传感、身体自感知能力,都会增加成本和集成风险。当前不少传感器堆栈仍被认为太脆弱、太贵,或难以规模制造。

  电池是另一个现实问题。若机器人电量不够支撑连续工作,企业就要准备备用机器人,成本继续上升。热插拔电池成为一条缓解路径,Boston Dynamics Atlas、Mentee Robotics即将推出的Mobileye人形机器人、Unitree G1/H1、AgiBot Expedition系列,都采用或支持按需换电,以减少停机时间。

  垂直整合不是姿态,而是供应链压力下的选择

  很多人形机器人公司开始自己做关键零部件,不只是为了讲故事,而是现成供应链还没准备好。

  1X 自2015年以来持续打磨自有腱驱动电机,在加州工厂从铜线绕组到最终执行器组装全部内部完成,并已生产约1.7万个电机。Apptronik 为Apollo开发自有高扭矩执行器,同时与Jabil展开试点和战略制造合作,用于生产Apollo并在部分Jabil制造业务中部署。

  Boston Dynamics 则计划借助现代汽车供应链的标准化部件,提高Atlas的可靠性和可制造性。特斯拉的路线更接近汽车复用:把电动车级电机、电力电子和自研FSD计算平台用于Optimus,长期目标是接近汽车式产量和成本,年产规模达到数万台、单位成本随时间降至约2万美元。

  这条路并不轻。汽车供应链能提供规模制造经验,但人形机器人不是汽车。它需要更密集的关节、更复杂的触觉、更高的实时控制要求,还要在人类身边工作。制造能力只是门票,不是胜负手。

责任编辑:凌辰

九游体育,吉祥体育官网,

九游电脑版官方下载相关资讯:吉祥体育app,