迎宾的、唠嗑的、端茶倒水的、写诗作画的……在近日举办的2025中关村论坛年会上,“忙里忙外”的机器人成为现场最大的亮点,组团上演了一场科技秀。
过去几个月,人形机器人频繁亮相于各个舞台,大展绝技:在春晚舞台上扭秧歌,在社交平台上跳舞、翻跟头,在工厂里“拧螺丝”,在公众视野中弹琴、端茶倒水……仿佛一夜之间,一轮技术巨变的浪潮汹涌袭来,将我们迅猛卷入曾经只存在于科幻小说中的未来世界。
实际上,机器人技术的发展进程正不断提速。从1973年日本早稻田大学研发的WABOT-1诞生至今,人形机器人的研究范式不断变化。如今,人形机器人被视为实现具身智能的最佳载体之一。
所谓具身智能,顾名思义即“具有身体(物理载体)的智能(能感知交互和会学习思考)”,而人形机器人无疑是最重要、最受期待的实现形式之一。
2023年10月,工信部印发的《人形机器人创新发展指导意见》就已将人形机器人精准定位为“集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的又一颠覆性产品,它将深刻变革人类生产生活方式,重塑全球产业发展格局”。
今年全国两会上,“具身智能”首次被写入政府工作报告。同时,据记者统计,“具身智能”也出现在了全国6个省份的2025年政府工作报告中。
产业链协同突破前沿技术
感知、计划、行动,这一过程恰似人类与世界的互动模式。人形机器人亦是如此,凭借摄像头、雷达等设备感知外界,借由大模型与算法进行分析并作出决策,最终依靠由执行器构成的肢体付诸行动。
从产业角度来看,人形机器人主要依赖三大核心组件:“大脑”、“小脑”与本体。“大脑”司职高层决策以及智能信息处理;“小脑”专注于运动控制;本体则作为机器人的物理载体,切实承担具体的运动任务。
让机器人递水比跳舞更难
与其他形态的机器人相比,人形机器人的优势就在于未来与人类社会交互并执行任务。这也使得运动控制成为首要需解决的问题。
物理世界的复杂性要求“小脑”系统在训练过程中,必须将各种各样不同的环境变量纳入考量范围。尤其是双足行走,每一次迈出的步伐,都会产生不确定性:地面可能湿滑、物体或许具有弹性、摩擦系数也处于动态变化之中,这些因素均会对机器人的平衡感和判断能力造成干扰。
在一次公开采访中,宇树科技创始人王兴兴透露自己曾经并不看好人形机器人。彼时的算法水平还不足以支持人形机器人应对复杂多变的环境。然而,人工智能的迅猛发展,为人形机器人进步带来了质的飞跃。如今,机器人研发者不再需要编写程序来操作机器人,而是可以通过大模型,让机器人不断学习传感器同步的实时数据,进一步完善运动控制,使人形机器人的平衡控制、动态性能更高。
“人形机器人之所以称为机器人领域最难攻克的类型,就在于其运动控制的门槛极高。若无法做好运动控制,根本不具备进入该领域竞争的资格。”乐聚机器人副总裁柯真东对记者表示,人形机器人的构型极为复杂,身上关节数量少则十几个,多则40多个。要用一套算法同时精准控制40多个关节,还要保障机器人在运动过程中不会倾倒,且动作平滑、柔顺,这使得机器人的建模过程充满挑战。柯真东直言:当下,各家机器人在运动控制方面的差异,已成为拉开彼此差距的关键因素。
对于人形机器人,学会行走只是运动控制的第一步。从产业化视角看,双臂与手的协同操作能力才是重中之重。优必选首席品牌官谭旻指出,未来两三年,机器人行业竞争焦点将集中在上半身,而非下半身。




在运动控制领域,“灵巧手”被业内公认为最难突破的部分。解剖学研究显示,算上手腕,人类双手拥有27个自由度(编者注:自由度是机器人常见术语,指它的各个关节可以在三维空间中独立移动的方向和角度的数量,自由度越高,机器人越灵活),能组合出超300种基础动作模式,这种多维度协同让人类得以完成系鞋带、弹钢琴等精细复杂任务。
宇树科技提供给记者的一段视频中显示,该公司最新发布的Unitree Dex5灵巧手,具备单手20自由度(16主动+4被动)以及单手94个灵敏触点,能够完成打扑克、玩模仿、翻书等动作。在论坛现场,记者还亲眼看到了灵心巧手Linkerbot人形机器人用双手演奏钢琴与电笛的精彩表现。
“灵巧手作为机器人的末端执行器,想要完美复刻人手结构与功能是非常难的,它需要具备强大的能力,执行捏、拿、握等种种精细操作,这关系到复杂的结构设计和精密的控制问题。”灵心巧手(北京)科技有限公司联合创始人张延柏对记者表示,当前常见的人形机器人一般设有16~18个主要关节,而他们公司研发的单只灵巧手,就拥有21个主动关节。
张延柏认为,目前灵巧手研发面临诸多现实挑战,如部件强度与自重平衡、传感技术精度、数据采集效率与准确性、学习算法优化等。这些因素不仅影响优质灵巧手的性能与实际可用性,还关系开发成本、使用成本,甚至决定其能否大规模量产与广泛应用。
关节自由度之外,触觉传感器的相关技术也同样决定着灵巧手的成败。人类历经漫长的进化过程,才发展出对物体的力觉感知和形状感知能力。而机器人只能依靠机器硬件以及算法来作出判断,其间的技术难度不言而喻。
在上海清宝引擎机器人测试中心,一台约1.6米高的双足人形机器人正流畅地摆动双臂,伴随音乐跳起一段机械舞,关节活动时的细微声响与精准动作引得在场人员惊叹。
“它的往返精度达到±0.05毫米,全球能做到这种水平的寥寥无几。”公司董事长王磊说话间,机器人转向观众,眼部高清摄像头捕捉到记者表情后,显示屏立刻浮现微笑。在这台机器人旁,另一台装备皮肤、五官的机器人,也在同步回应记者动作。王磊称,它的眼皮、眉毛、嘴唇均可灵活运动,能根据对话对象情绪切换16种表情。
即便动作精准度如此之高,王磊仍坦言:“让机器人像人一样递一杯水,需融合视觉识别、运动控制和智能决策,难度比跳舞高出10倍。”
让机器人“大脑”更“灵光”
在中关村论坛现场,仿生交互机器人妮娅凭借逼真的形象与细腻的表情,吸引了众多参会者的围观与互动。
北京清飞科技创始人、CEO魏宇飞向记者介绍,妮娅是清飞科技研发的仿生交互型机器人,在中关村论坛年会中承担接待工作。除了语音互动,妮娅还能通过观察人类表情感知情绪反应,让交互过程更加自然、人性化。“这也是仿生人形机器人最大的亮点,它十分通人性,不仅智商高,还很有眼力见儿。”魏宇飞说道。
在这些语音交互、表情交互的背后,发挥关键作用的正是人形机器人的“大脑”。
在人工智能诞生前,人形机器人的“大脑”是一系列精密设定的方程式,尽管经过精密计算,但由于难以涵盖所有变量,机器人距离真正意义上的“思考”仍有很大差距。

