3月10日,证券时报记者从机器人公司智元机器人获悉,该公司发布了首个通用具身基座模型智元启元大模型Genie Operator-1(GO-1)。
据介绍,该模型创新性地采用了Vision-Language-Latent-Action (ViLLA) 架构,由VLM(多模态大模型)和MoE(混合专家)组成,从而实现了可以利用人类视频学习,完成小样本快速泛化。目前,GO-1大模型已成功部署到智元多款机器人本体之中。
智元机器人由从华为离职的“天才少年”彭志辉创办。彭志辉在互联网上以“稚晖君”被人广为熟知,因在B站发布了很多硬核科技产品的视频而闻名,被称为“野生钢铁侠”。对于GO-1大模型的发布,稚晖君早几日已在微博上进行“预热”,称“下周有好东西发布”,相关词条冲上热搜。值得注意的是,今日GO-1发布后,稚晖君在微博上透露,“明天还有惊喜”。
大模型赋能机器人更好完成任务
递水杯、做早餐、泡咖啡……在智元机器人发布的展示视频中,成功部署了GO-1大模型的机器人持续进化,在一系列工作任务中表现出色。
例如在给人类递水的任务中,GO-1通过学习大量的人类倒水视频,从而“学习”了这一技能。据介绍,GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。同时,GO-1大模型具有强大的泛化能力,能够在百条级别的极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
除了人类视频学习和小样本快速泛化以外,GO-1大模型还有其他两大显著的特征。一是“一脑多形”,能够在不同机器人形态之间迁移,快速适配到不同本体;二是能够持续进化,搭配了智元机器人一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。
GO-1大模型的训练主要是基于2024年底智元机器人推出的AgiBot World数据集。该数据集是包含超过100万条轨迹、涵盖217个任务、涉及五大类场景的大规模高质量真机数据集,涵盖超100种真实场景,其中40%为家居场景,20%为工业场景。共收录80余种人类生活必备技能。
在模型架构方面,为有效利用AgiBot World数据集以及互联网大规模异构视频数据,智元机器人提出了Vision-Language-Latent-Action (ViLLA)这一创新性架构,GO-1正是基于ViLLA架构构建的具身基座大模型。
ViLLA架构是由VLM(多模态大模型)+ MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
通过这一创新性架构,智元机器人在五种不同复杂度任务上测试GO-1。结果显示,GO-1相比于已有的最优模型大幅领先,平均成功率提高了32%,并在倒水、清理桌面、补充饮料等任务中表现尤为出色。
智元机器人表示,GO-1大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用。
智元机器人已量产下线1000台机器人
在GO-1大模型发布的同时,智元具身研究中心常务主任任广辉介绍,截至目前,智元机器人已经量产下线1000台机器人。
事实上,早在去年12月,智元机器人就对外宣布“开启通用机器人商用量产”。今年 1 月,上市公司蓝思科技与“稚晖君”创业项目智元机器人公司在长沙举行了灵犀X1人形机器人套餐交付仪式,成功批量交付灵犀X1人形机器人相关产品。
作为人形机器人赛道的另外一家明星创业公司,智元机器人虽然成立仅两年时间,却备受行业关注,这与稚晖君的影响力密不可分。
公开资料显示,稚晖君2015年本科毕业于电子科技大学生命科学与技术学院;2018年研究生毕业于电子科技大学信息与通信工程学院;2020年入选华为公司“天才少年计划”,从事昇腾AI芯片和AI算法相关研究工作。业内人士介绍,华为“天才少年”的招聘流程非常严格,不仅需要经历7轮左右的复杂流程,而且还要通过华为总裁的面试。最终成功入选这项计划的“天才少年”们,年薪都是100万元起步。
2022年10月,稚晖君宣布从华为辞职,并于数月后成立了智元机器人。2023年4月,他在微博发布了智元机器人的招聘帖,以此宣布投身创业。
公司成立半年后,2023年8月,智元机器人就发布了首款产品“远征A1”。“远征A1”身高175cm,重53kg,最高步速达到7km/h,全身有49个自由度,可以承重80kg,单臂最大负载5kg,在双足行走、智能任务、人机互动等领域展现了业界领先的能力。
2024年8月,智元机器人在年度新品发布会发布了“远征”“灵犀”两大家族共计五款商用人形机器人新品(远征A2、远征A2-W、远征A2-Max、灵犀X1以及灵犀X1-W),其中灵犀X1是智元机器人最新打造的具身智能机器人。至此,智元机器人旗下已形成人形机器人的两大产品线——“远征”和“灵犀”。
天眼查显示,智元机器人是备受资本追捧的公司,目前累计完成7轮融资,投资方包含高瓴、经纬、鼎晖、高榕、蓝驰、红杉中国等头部投资机构,还有比亚迪、上汽创投、百度风投等产业资本。值得注意的是,智元机器人最新一轮融资为去年9月公布的A+++++轮融资,不断叠加的“+”号也侧面印证了公司的炙手可热。
国联民生证券认为,人形机器人作为一种高度复杂的智能装备,其研发、生产和应用涉及众多学科领域,包括化学工程,机械工程、电子工程、计算机科学等。长期以来,高昂的成本一直是制约人形机器人大规模普及的关键因素。然而,随着AI技术的飞速发展,其强大的数据分析、模拟优化和自主学习能力为人形机器人的降本提供了全新的思路和方法。AI算法对合成环节的介入有望提高生产过程中的精度控制,并增加AI对环节产成品的关键性质乃至分子排列等检验措施,从而提高当前生产工艺下的产成品良率,从推动制造费用的下滑和原辅料的消耗减少,实现生产端的降本增效,人形机器人量产时代或加速到来。
校对:王蔚