2026年6月1日,上交所将就宇树科技上市召开审议会议。距3月20日递交招股书不过三个月,审核推进之顺畅,堪比挂着729车牌在平壤飙车。
这本招股书也让外界第一次看到这家因春晚走红的科技企业的全貌。
机器人明星公司的技术焦虑
财务层面,无论收入还是bottom line,都足以让还在烧钱换故事的同行羡慕不已。

2025年,宇树人形机器人出货量超过5500台,位居全球第一。商业化成功的同时,研发也没落下。人形机器人H1在2026年达到10米/秒奔跑速度,连续刷新全尺寸人形机器人世界纪录。运动控制与集群调度性能亦在持续提升,从2025年春晚的秧歌舞,到2026年春晚武术表演中展现出的毫秒级协同,进步有目共睹。
然而,亮眼数据的背后,也隐藏着宇树的战略焦虑。
本次上市计划募集42亿元,其中约85%将用于研发或开发项目。近乎一半、约20.22亿元将投入智能机器人模型研发,主攻“大脑”与“小脑”相关的关键技术。
所谓“大脑”,是机器人的总指挥中心,负责想清楚“要做什么”“怎么做更好”“先做哪件事再做哪件事”,代表的是机器人对外部环境的认知、决策及任务规划能力;“小脑”则是运动控制系统和全身灵巧运动能力,负责让机器人的身体动得稳、准、灵巧。大脑负责“想”,小脑负责“动”。
宇树在招股书中坦承,公司以前研发侧重本体与小脑方面,直到2024年才开始逐步加强对具身大模型即大脑方面的研发投入。目前来看,“小脑”能力在业内已经够夯,但真正决定天花板高度的“大脑”能力仍亟待补强。
要知道春晚表演是一种高度定制化的展示,灯光、地面、动作序列、协作节奏,每一个变量都被事先精确设置,这与机器人在真实世界中面对的复杂性相去甚远。在工厂车间或是家庭厨房,机器人面对的不是精确预设的指令,而是充满噪声、变化与意外的真实世界。在这种非标准化的空间内,“大脑”能力不足的代价就会暴露出来:机器人不知道下一步该拿哪件东西,不知道这个场景里什么是障碍物,不知道用户真正想要的是什么结果。用创始人王兴兴的话说,具身智能真正的“GPT时刻”还差一点火候。
比“GPT时刻”更重要的,是“精灵时刻”
与其讨论机器人的“GPT时刻”,或者说在讨论这之前,不如先看一个更有参照价值的先例——大疆。
不只因为两家公司都是在中国供应链的土壤上生长出的硬件精英,更因为宇树当下所处的时刻,与大疆当年非常相似。
彼时的大疆,在飞控技术上已经建立了毋庸置疑的优势。然而飞控本身解决的是“无人机能不能稳定飞行”的问题,却不回答“人们为什么要买一架无人机”。直到2013年,大疆通过推出全球首款消费级航拍一体机“精灵”Phantom 1,由此开拓了消费级无人机市场。因为这款具有划时代意义产品的横空出世,“航拍”这一消费场景才被彻底激活。
在大疆之前,航拍并非没有需求——影视剧组、新闻机构一直有这样的诉求,但代价是昂贵的直升机和专业摄影师,普通人望尘莫及。大疆的精灵系列,第一次让“从空中俯瞰”成为消费级的可能,激活的不只是一个既有需求,更是一个从未被满足因而也几乎不被人意识到的潜在渴望。“航拍”因大疆而成为一个真正存在的市场品类,这个品类又反过来成为大疆最厚实的护城河。此后,大疆凭借消费级技术与专业级能力的融合,将业务延伸至电影制作、工业监测及农业植保等场景,构建起强大的生态壁垒。所有这一切,都是在“航拍”这个真实场景被打通之后才有的故事。
这正是理解宇树当前处境的关键。
招股书内提到,在需求端,除特定应用场景外,通用机器人的消费级市场尚未形成刚需。现在的宇树,就是发布精灵前的大疆:技术领先,硬件精良,但那个能真正回答“我为什么需要它”的消费市场还没有被引爆。
两届春晚让数亿中国人留下“人形机器人原来已经发展到这个程度”的印象,但曝光不是场景。抛开高校、科研机构甚至同业这些愿意为硬件平台买单的专业用户,宇树能否从“精彩的展示品”进化为“真正的产品”,仍有待一个具有爆发潜力的场景来完成临门一脚。
人形为何成立,落地从何开始
在找到那个场景之前,先解释一下为什么要做人形。“人形机器人”不是因为想要取代人类而固执地模仿人类形态,它只是一种更好匹配环境的策略。人类文明建造的所有物理空间,比如门把手、楼梯、驾驶座、键盘、工具台的高度,这些都是为一个两条腿、两只手、站高约1.7米的生物设计的。如果机器人要快速进入既有的人类世界,而不是让人类重新建一个为机器人设计的世界,那人形就有巨大的工程优势。
矿山作业、高空灭火、核电站检查,人形机器人在这些场景内,相较于无人机或履带机器人,形态优势并不突出。真正能发挥人形价值的,是那些由人类建造、为人类设计、深度嵌入日常生活的空间。
从这个角度看,家务活、儿童照料、老年陪护是诱人的方向,但也是最遥远的场景。它对“大脑”的要求是所有场景里最苛刻的。机器人必须理解人只言片语下的真实意图、适应千变万化的家庭环境、处理突发状况,这些能力恰恰是当前行业需要攻坚的地方。
招股书里似乎透露了一点更务实的苗头。宇树的工业级具身大模型 UnifoLM-X1-0 已在自有工厂中完成试点部署测试,可自主完成关节电机装配等任务。工厂场景的特点是任务的种类相对有限,可以进行密集的数据采集和反复训练,且用人成本足够明确,使得机器人替代有清楚的经济账可算。这也是特斯拉发展人形机器人Optimus的思路,先部署在Giga Texas等特斯拉的超级工厂,专注于危险、重复或枯燥的工作,例如搬运笨重的电池组、组装微小螺丝或在仓库内巡逻,以后再向其他领域延伸。
具身大模型与语言大模型的训练逻辑存在根本差异。语言模型可以从互联网上的海量文本中学习,而具身智能的大脑需要的是身体与真实世界交互的数据。这些数据无法从书本里获取,必须在真实的物理世界中积累。
场景,是训练大脑最好的土壤
回到前面提到的“大脑”能力的问题。如果宇树能够在某个具体场景里扎实地跑通,哪怕只是一个很窄的任务集合,那个场景就会变成一个持续产生高质量训练数据的引擎。随着数据量的积累,“大脑”的能力会在这个场景里先行突破,继而泛化到相邻场景,形成能力的滚雪球效应。反过来,如果宇树在没有找到真实场景之前就开始撒钱做通用大脑,那将是一场极其昂贵且方向不清的豪赌。
宇树的前路并不轻松。在人形赛道,“人形机器人第一股”优必选(09880.HK)已经抢先占位;工业场景里,深耕多年的机械臂龙头埃斯顿(02715.HK)也在加速向具身智能转型;在大洋彼岸,特斯拉Optimus背靠超级工厂的海量场景数据,正在走一条与宇树高度相似发展路径。宇树的突围答案,或许就在于比所有人更快在单个场景里跑通、扎深。
宇树的野心,在某种意义上比大疆更大。它不只是在开拓一个消费产品品类,而是在开拓一种与人类协作的新形态。机器人如果真的能规模化落地,对劳动力市场、生产组织方式乃至人类社会的形态,都将是深刻的重构。
王兴兴在致投资者的声明中写道:“当下,正逢全球AI与具身智能技术突破前夜,人类迈向更高级文明的黎明时分。”
在这之前,市场或许可以先期待一下宇树的“精灵时刻”。
