专题:第28届北京科博会-未来产业推介会


  第28届北京科博会-未来产业推介会于2026年5月8日在北京举行。北京人形机器人创新中心有限公司CTO唐剑出席并演讲。
  以下为演讲实录:
  唐剑:今天非常荣幸代表北京人形机器人创新中心和大家分享一下我们在开源开放方面的工作。
  基本上我的所有分享都是以莫拉维克悖论为开端,这是一个广泛认知的悖论,所谓悖论就是反常识,莫拉维克悖论原话我放在上面,最简单的解读,人和机器是反着的,很多任务人觉得比较简单,但是机器觉得很复杂,反之亦然,这就是为什么机器已经把很复杂的任务,像下围棋给攻破了,但是一些简单的像2、3岁孩童能够做的开门、关门,一些简单的家务工作现在目前机器人还无法做。
  最核心的痛点问题就是,我这边有三页,总而言之就是泛化能力,现在整个具身智能行业解决最核心的问题就是全面提升机器人以及这些具身智能设备的泛化能力,之前机器人在上世纪50年代就已经出现了,当然形态各方面还在演进,即便到目前为止,还是存在场景演化能力差、任务泛化能力差,以及本体泛化能力差,这些痛点问题。总而言之,基本上我们要解决在某一个场景下的一个任务,我们需要专门的某种机器人的本体,针对这个本体专门写一个程序,这个程序只能控制机器人在特定的场景下完成特定的任务。
  现在大家说具身智能或者人形机器人特别火,主要大家在解决的问题就是通用性的问题,和AI是一样的,AI大家说目标就是AGI,这个G就是general的意思,整个具身智能也是为了全面提升机器人的泛化能力。我们创新中心基本上从创立之初,就定下了2个目标、2个任务或者2个产品也好,因为我们自己定位是一个平台型的生态公司,我们主要是希望服务整个具身智能应用以及人形机器人行业的这些开发者,帮助他们开发出能够赋能千行百业进入千家百户的机器人产品,所以我们公司的两个主要产品一个是具身天工,这是一个通用形态的人形机器人,还有慧思开物,我们基本上一直做这两件事情,不断迭代升级,下面跟大家分享一下最新的进展,特别是我们在开源开放方面的一些工作。
  到目前为止,这是我们做的一些开源的项目,因为我们一直开源开放,我们也认为这是通向具身智能一个非常重要的步骤,从2024年陆续开放了数据集、训练的工具,最新的开放了我们最新的和具身智能相关的,像大脑的VLM模型、VLA的,还有XR-1模型以及世界模型,稍微详细的介绍一下。
  首先是天工机器人3.0的平台,这个是在2月份正式发布,在这个月中下旬就开始陆续出货。天工3.0它是一个全尺寸的双足人形机器人,身高是1.69高一点接近1.7,体重是在全尺寸机器人里面比较轻的,60多公斤左右,全身43个自由度,这个是包含了手的,因为我们标配的手是六自由度的灵巧手,如果去掉手的自由度是31个,腰部有3个自由度,头部有2个自由度,因为前面也提到,我们一直是秉承开源开放的理念,所以我们在各方面的接口上都做了最大程度的开放。
  另外就是相应的,其实刚才毛总也提到,轮臂式机器人相对来讲在一些场景,特别是一些工业场景,结构化、半结构化工业场景我们觉得是比较稳定的,更加稳定,比较好落地,所以我们相应的有具身天轶这个系列的,这种轮臂式,上身和天工是一样的,保持一致的。
  另一个就是整个公司最核心的任务或者说产品就是慧思开物平台,这个是我们在去年发布慧思开物平台,一直在不断的迭代升级开放开源,中间是慧思开物平台各种的能力,慧思开物平台定位是一站式通用具身智能开发平台,里面有三个关键字。一站式就是我们希望具身智能应用开发所需要的所有基础模型、工具、数据集以及Agent的架构我们都是以开源或者开放的形式去提供给整个行业。通用就是我们的目标,就是希望整个平台用来去开发各行各业的应用,而不是一个专门的某一项应用。另外它是一个开发平台,它是服务开发者的整个平台本质上讲,它是一个分布式的多具身智能体,也是包含两部分,一个是具身大脑,完成像自然交互、感知、意图理解,特别是任务规划等任务。
  小脑也分两部分,一个是操作类的,完成控制,上肢完成各类操作,还有运控,运控主要是完成导航定位以及运动控制,我们整个设计目标也是希望一脑多能,基于这个平台能开发各类应用;同时一脑多机,平台也能适配各种机器人,不仅限于天工、天轶。我们在去年十月底已经把慧思开物第一版以SDK的形式开发给整个行业,并且现在在不断的迭代升级这个平台,最新的像世界模型、大脑的模型以及VLA的模型都做了开源的工作,还有一些基础能力,特别是非常重要的像导航、建图谱这些能力都已经开放出来了,我们的合作伙伴,特别是二次开发者可以很容易的应用这些功能完成他们自己的应用。
  下面稍微介绍一下整个具身大脑是采用双模驱动这种自主学习的方式,具身大脑应用两个模型,一个是多模态大模型,我们叫Pelican天鹕,这是一个VLM,另外配WoW我悟世界模型,我们也是行业最早开源这样的世界模型的,去年11月开源了第一版具身世界模型,这两个模型就形成双模驱动,世界模型辅助大脑VLA的模型自主进化、自主学习,另外世界模型我们认为它有3个作用:一是帮助大脑自主进化,二是能够合成训练,比如说像VLA模型需要的轨迹数据。三是世界模型本身作为VLA实现对机器人操作的控制,另外它的泛化能力,目前我们看到是要强于传统的VLA模型,所以我们也觉得它是一个非常有希望去实现通用具身智能的一条路径。
  下面详细介绍一下Pelican VLM的模型,去年年底用12个和具身智能相关的数据集做了一个非常全面的评测,和其他的比较常用的以及开源的主流的模型都做了对比,基本上都达到SOTA水平,目前第二版很快也要发布同时应该很快就会为整个行业提供商用的服务。
  天鹕Pelican大模型主要的功能包括了像空间理解,就是识别整个空间有什么物品,相对的位置关系如何?核心的作用就是任务规划,把一个复杂的任务拆解成多个步骤,并且下发给小脑,小脑是一个运行在机器人本上的Agent,像OpenClaw一样的模式去调用不同的技能,现在每一项技能是用不同的VLA模型来实现的,当然世界模型也有可能用于全技能的VLA,目前我们看这也是一个非常可行的路径。另外就是状态预测,判断整个任务是否执行完毕,最后这个例子是描述很多任务需要大小脑协同,共同完成,光有小脑是不够的。
  这个是我们的具身世界模型,英文简称WoW,我们的世界模型是基于开源的视频生成模型做了大量的后训练,用了几百万条的机器人操作的数据。另外对物理知识进行了强化微调,使世界模型能够遵循物理规律,大家知道世界模型和一般的视频生成模型最核心的就是需要世界模型严格的遵循物理规律来完成各项操作。另外我们做的是具身世界模型,所以它整个生成的视频都是机器人第一人称视角的来做各种操作的视频,同时我们也提出了VLM+WFM闭环的训练范式,不断的提升世界模型生成视频的质量,并且让它能够符合物理规律。
  这个是我们跟世界上最好的一些具身世界模型做了对比,发现在长程视频理解、视频泛化、光影变化上都能够达到SOTA的水平。
  同时我们在去年年底也开源了VLA模型,就是XR-1,这个VLA模型使用了三阶段的训练范式,在第一阶段做预训练,用了大量的互联网的视频数据做预训练,让让VLA的基座能够捕捉输入数据的特征,在第二阶段做端到端的训练,主要是用机器人操作轨迹的数据,第三阶段针对特定场景做微调。
  VLA模型我们其实当时也是跟SOTA,像清华RDT,英伟达GR00T N1.5,PI的系列模型,PI0,PI0.5,以及做了全面的对比,在很多任务上都能够达到SOTA水平,目前我们也是去年年底电子四院用具身智能国家标准对我们做了一个超过一周,大概有十天左右全面的评测,对任务成功率和泛化能力做全面的评测,并且授予了我们证书,目前我们是第一个也是唯一一个通过电子四院国家评测的VLA模型。
  这个是我们目前基于天工3.0在全身运动控制上的进展,这个是用最主流的强化模仿学习的方案。整个天工3.0的定位是兼顾了运动以及操作的能力,大家知道现在这种行业内小的人形机器人运动能力比较强,天工3.0机器人用强化学习的算法让它做非常高动态的动作,比如说托马斯全旋,侧手翻,还有接触式的,这个要比非接触式的要难得多的就是单手翻箱子这样一些高动态的动作,同时核心设计目标其实让天工3.0有强大的操作能力。
  创新中心也是整个行业内第一个实现双足机器人全自主导航的,大家知道我们在去年的运动会自主奔跑,今年马拉松也是全自主奔跑。
  同时前一段时间,应该是4月18号也参加了马拉松障碍赛的挑战,如果了解这个赛事的同学应该知道,整个障碍赛设置的障碍是非常难的,特别是对全尺寸的双足机器人是非常难的,我们也是首创感知移动技术,大家看下楼梯,大部分行业内的机器人是盲视下楼梯,会跌跌撞撞地下来,我们这个下楼梯的方式跟人非常相似,它会感知整个楼梯的地形,规划落脚点,比较从容淡定的下楼梯,我们在自主导航上是冠军,同时也荣获了智行奖。
  同时我们创新中心也构建了数据基地,也是赋能整个行业,数据基地和创新中心大概也就十分钟的车程,我们今年能够达到年采集1千万条高维度数据的能力,数据基地有5千多平米,目前有超过100台各类机器人,不仅限于自己天工、天轶的机器人,现在有很多的外部客户用数据基地来采集数据。
  我们在2024年底也是发布了Robo MIND V1.0数据集,包含了10万条轨迹数据,在去年年底是全面升级Robo MIND V2.0,包含了30万条的轨迹数据,700多项任务,同时也有行业内非常少见和稀有的1.2万条带触觉的操作数据。大家知道很多的任务如果没有触觉是很难实现的。
  另外我们在去年也开源了高质量的仿真数据集叫ArtVIP,里面包含了6大类,206个精雕细琢高质量的铰链物品的仿真,这个也是行业比较稀缺,比较需要的,非常简单快捷导入IsaacSIM,或者是Lab的仿真器实现仿真。
  我们在3月底的中关村论坛也是首次发布了我们开源、开放、共创、共赢的生态建设计划,整个计划包含了4个主要部分,开发者培育、产业应用落地、具身智能底座的建设,以及标准的测试和中试服务等等,希望联合众多的生态伙伴共同推动整个行业的发展。
  这是我们在生态建设中做的一个非常重要的工作,构建了2026半程马拉松的实训营,这个是吸引了超过100名学院参加,主要是高校和合作伙伴的科研开发人员,他们组建了22支参赛队伍,主要以二开团队为核心的,其中20支队伍在半程马拉松就已经完赛,同时我们还觉得有一些比较典型的厉害的二开队伍,比如像深圳大学是用天工3.0在2000公里外实现远程遥操作完赛的,还有蔚来汽车和我们的联合团队,这是完全用他们的导航算法在我们的天工Ultra机器人上完赛,成绩非常好,1小时17分,已经是非常快了。还有德国慕尼黑大学开发了自己的算法,并且也成功的完赛。
  这是最后一页,我主要想要讲的是,大家也知道,在上世纪八十年代,随着像通用个人电脑的出现,全部或者是部分取代了计算器、游戏机、文字处理机专用的个人的计算设备,在本世纪第一个十年也是随着iPhone通用智能手机的出现全部或者部分的替代了只能打电话的功能手机、数码相机、MPC播放器和PDA等等,数码相机应该说部分替代,但是MP3播放器和PDA现在看不见,但是现在都是非常流行的移动设备。
  我们坚信未来具备通用具身智能能力的通用人形机器人也会全部或者部分的替代现在正在使用的各类的专用的机器人,创新中心也希望坚持以开源、开放的理念,与生态合作伙伴以及在座的各位一起共同推动具身智能以及人形机器人进入千家万户,赋能千行百业,谢谢大家!
  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:梁斌 SF055

乐鱼app,球友会官方网站,

乐鱼官网相关资讯:球友会首页,