专题:第28届北京科博会-未来产业推介会


  第28届北京科博会-未来产业推介会于2026年5月8日在北京举行。眸深智能首席科学家陈涛出席并演讲。
  以下为演讲实录:
  尊敬的各位领导、各位嘉宾,还有各位企业家朋友,大家好。很高兴向大家介绍一下我们成立于2025年1月份的眸深智能科技有限公司,以及我们最近取得的一些成果。
  我们主要做的是数据和算力高效的机器人生成式运动大模型,从名称不难看出,我们聚焦当前备受关注的机器人产业,为本体打造最适合、性价比最高的 “大脑”。在这里,我想先通过一张图说明具身智能赛道的生态分布:最下方是专业机器人,其市场份额和毛利空间相对较小;中间是通用本体,涵盖灵巧手、机械臂到整机等,我们已对比中国的宇树、美国的波士顿动力(Boston Dynamics)、丰田等本体企业;最上方是机器人大脑,目前其市场份额和毛利空间都非常可观,且中美两国在该赛道竞争势头强劲,我们极具希望超越美国,在国际上占据一席之地。眸深智能就定位在通用大脑赛道,致力于成为 “中国的 Skild AI”。
  当前大脑市场面临两大核心挑战,可总结为具身数据的 Scaling Law 和算力的 Scaling Law。简单来说,具身大脑的数据量越多,训练出的模型能力越强。目前北京、上海、重庆、深圳等地纷纷建设机器人数据采集厂,每天有大量工人和工程师穿戴设备,采集机器人做饭、炒菜、干活等各类数据,日数据量可达几万条甚至几十万条,但这些数据仍存在四大突出问题:一是 “贵且少”,真机数据采集成本高昂,总体数据量有限;二是 “孤”,数据通用性不足、相对孤立,全球 300 多家厂商的人形机器人本体差异较大,为宇树本体采集的轨迹数据无法直接应用于智元本体,企业需为新本体重复采集,造成成本浪费;三是 “乱”,市场上各类机构的数据格式混乱、碎片化严重,涵盖真机数据、遥操数据、仿真数据及各类互联网视频数据;四是 “缺”,多模态数据缺失,目前主要依赖自然语言和计算机视觉两大模态,而对机器人至关重要的触觉数据、力反馈数据等 “多模态异构数据” 较为匮乏。数据的 “少、孤、乱、缺”,直接导致具身模型迭代速度较慢。
  针对这一痛点,眸深智能实现了跨本体真机数据合成,打破了传统单一真机遥操数采的路线。这里有两个动画演示:中间是自研的眸深 “Motion Brain” 具身大脑,该大脑在获取左侧宇树的真机数据后,结合目标真机(如傅利叶)的本体 URDF 参数,即可用宇树的轨迹合成傅利叶本体的数据,实现跨本体真机数据生成。通过这一技术,我们可借助一个本体的数据生成另一个本体的数据,避免为新本体重复采集大量数据,极大扩充了可用的真机本体数据量。
  我们的模型训练数据管线由三部分构成:80% 的海量互联网视频数据,用于学习与机器人本体无关的通用运动逻辑;10% 的关节动捕数据和 10% 的真机数据,用于学习机器人的运动学经验。在后训练阶段,通过仿真模拟和少量特定场景真机数据,即可实现从虚拟到现实的高效映射。这一方案解决了具身 VLA(视觉 - 语言 - 动作)模型过分依赖真机数据驱动的问题,降低了 90% 的数据成本。2026 年,我们发表的一项工作仅用传统方法 1/12 的数据量,就训练出针对机器人本体的全身动作通用策略,受到业界和学术界的广泛关注,充分体现了模型的极高数据利用效率。
  除数据层面的突破外,模型方面我们也提出了业内首创的原生多模态具身机器人大脑 ——World Motion Model(世界运动模型),这是模型路线的一次革命。2023 年 ChatGPT 第一代语言模型刚推出时,我们就开始探索语言模型与机器人的结合,当时国内外同类赛道均无团队聚焦这一方向。我们的核心目标是:让用户输入自然语言,模型就能合成符合要求的各类动作。2024 年至 2026 年,我们持续对该模型进行迭代,2025 年中期,英伟达发布的工作中援引了我们 2023 年开源的代码、数据集和训练好的模型,其适配英伟达算力芯片的人体运动模型,可从真实自然的视频中合成动作。
  回望具身智能行业技术发展,大致可分为三个阶段:第一代(2021 年)以规则和预编程为主;第二代(2023 年 - 2025 年)是 VLA 阶段;第三代(2025 年 - 2027 年)为世界模型 + VLA 的过渡态模型。我们认为 2027 年起将进入第四代具身模型 —— 原生多模态具身模型,而眸深智能从 2023 年起就已布局这一方向。其核心逻辑是利用 Transformer 预测下一个 Token 的能力,联合预测下一帧世界状态和下一步机器人动作。目前,我们在机器人动作生成与控制大模型上已迭代出 6 版 MotionGPT 系列大模型,在世界模型上迭代出 LL3DA、HL3DWM 等成果,最新一代端侧原生多模态世界运动模型 T2MB 面向具身 AGI 终局,让机器人在与环境的交互中实现自主进化和持续学习。我们坚信,机器人智能的极大提升离不开与环境的交互,而非仅靠互联网预训练后进行端侧部署。因此,我们打破传统范式,实现了零外部奖励、零人工标注和零监督信息,性能超越微调后的 OpenVLA 基线模型,在国际权威机器人模型榜单上,整体性能、连续成功率和复杂操作技巧均提升 20% 以上。
  此外,我们高度重视具身大脑与国产算力的适配。我本人曾在华为海思工作三年,2023 年起便开始研究机器人大模型与国产算力的适配问题,这与 DeepSeek V4 首次实现语言大模型与国产算力芯片全面适配的理念不谋而合。我们的第一代模型就注重与国产海思芯片、地平线芯片、燧原等诸多国产芯片公司的适配,实现低功耗、高实时和超低成本的端侧推理。我们针对具身大模型的压缩工作,荣获 IJCAI 2025 全球最佳论文奖,这也是近五年唯一获此荣誉的中国大陆团队。通过端侧算力适配,模型推理成本可从 20 万降低至 1 万,大脑续航时间提升 10 倍,且精度和性能不受影响。依托这一技术,我们能快速实现从芯片算力适配到跨本体适配,针对复旦自研的 “光华 1 号”、宇树 G1、上海人形机器人创新中心的 “青龙” 和 “灵龙”、帕西尼、睿尔曼等本体,可在两周内完成一套具身大模型从一个本体到另一个本体的适配。
  我们已落地多个经典案例:人形机器人跟随人类运动实现人机协同搬运,结合六维力传感器感受推拉和晃动;双臂机器人实现调酒协作;桌面环境下实现任意自主连续成功的抓取。右下角的案例展示了我们的具身大脑与 π0.5 在同一操作任务上的对比,在相同执行成功率的情况下,我们模型的速度提高了 1 倍。
  商业模式方面,我们主要采用两种模式:一是端侧大脑模组,将适配各类算力芯片的大脑以标准化模组方式出售;二是与机器人本体厂商合作,推出 ODM 机器人整机。目前,我们已与重要客户进行订单接触和前期磨合,也与宇树等头部企业达成重要战略合作协议。
  企业成立一年半以来,已实现数千万销售订单,典型案例包括:与合成生物龙头企业合作的单臂倒甲醛熏蒸机器人,完全替代人工操作,消除人员吸入甲醛的安全风险;与微流控芯片龙头企业合作的桌面单臂缺陷检测机器人,将传统缺陷检测从 CV 模型完全过渡到机器人具身大模型,既能识别缺陷,又能用机械臂及时挑出;与零售企业合作的端侧员工行为智能识别系统,实现员工行为管控和安全排控,有效提升客户满意度、降低缺岗率;与安徽上市环卫公司合作的清洁和智慧巡检机器人;与家电龙头企业合作的柔性上下料组装项目,为宇树本体配备强脑灵巧手,通过力反馈完成瓶盖等精细部件的拧取和抓取;已与国内头部公司达成合作意向的可移动柔性搬运机器人;与上海国家人形机器人创新中心合作的全身运动协作项目,在其自研的青龙本体上,用我们的大脑驱动双臂双腿完成打拳、格斗及全身运动协作,该成果已在去年的 WAIC 大会上展示,完全实现端到端模式 —— 未使用该本体的真机实采,仅通过宇树本体的数据训练大脑并迁移至青龙本体,实现全身运动的在线映射。
  我的报告大概就是这样,谢谢大家!
  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:梁斌 SF055

ued体育在线观看,热博rb88登陆,

ued体育下载相关资讯:rb88走地皇,