距离成为下一个大疆，宇树还缺一个“精灵时刻”

2026年6月1日，上交所将就宇树科技上市召开审议会议。距3月20日递交招股书不过三个月，审核推进之顺畅，堪比挂着729车牌在平壤飙车。

这本招股书也让外界第一次看到这家因春晚走红的科技企业的全貌。

机器人明星公司的技术焦虑

财务层面，无论收入还是bottom line，都足以让还在烧钱换故事的同行羡慕不已。

2025年，宇树人形机器人出货量超过5500台，位居全球第一。商业化成功的同时，研发也没落下。人形机器人H1在2026年达到10米/秒奔跑速度，连续刷新全尺寸人形机器人世界纪录。运动控制与集群调度性能亦在持续提升，从2025年春晚的秧歌舞，到2026年春晚武术表演中展现出的毫秒级协同，进步有目共睹。

然而，亮眼数据的背后，也隐藏着宇树的战略焦虑。

本次上市计划募集42亿元，其中约85%将用于研发或开发项目。近乎一半、约20.22亿元将投入智能机器人模型研发，主攻“大脑”与“小脑”相关的关键技术。

所谓“大脑”，是机器人的总指挥中心，负责想清楚“要做什么”“怎么做更好”“先做哪件事再做哪件事”，代表的是机器人对外部环境的认知、决策及任务规划能力；“小脑”则是运动控制系统和全身灵巧运动能力，负责让机器人的身体动得稳、准、灵巧。大脑负责“想”，小脑负责“动”。

宇树在招股书中坦承，公司以前研发侧重本体与小脑方面，直到2024年才开始逐步加强对具身大模型即大脑方面的研发投入。目前来看，“小脑”能力在业内已经够夯，但真正决定天花板高度的“大脑”能力仍亟待补强。

要知道春晚表演是一种高度定制化的展示，灯光、地面、动作序列、协作节奏，每一个变量都被事先精确设置，这与机器人在真实世界中面对的复杂性相去甚远。在工厂车间或是家庭厨房，机器人面对的不是精确预设的指令，而是充满噪声、变化与意外的真实世界。在这种非标准化的空间内，“大脑”能力不足的代价就会暴露出来：机器人不知道下一步该拿哪件东西，不知道这个场景里什么是障碍物，不知道用户真正想要的是什么结果。用创始人王兴兴的话说，具身智能真正的“GPT时刻”还差一点火候。

比“GPT时刻”更重要的，是“精灵时刻”

与其讨论机器人的“GPT时刻”，或者说在讨论这之前，不如先看一个更有参照价值的先例——大疆。

不只因为两家公司都是在中国供应链的土壤上生长出的硬件精英，更因为宇树当下所处的时刻，与大疆当年非常相似。

彼时的大疆，在飞控技术上已经建立了毋庸置疑的优势。然而飞控本身解决的是“无人机能不能稳定飞行”的问题，却不回答“人们为什么要买一架无人机”。直到2013年，大疆通过推出全球首款消费级航拍一体机“精灵”Phantom 1，由此开拓了消费级无人机市场。因为这款具有划时代意义产品的横空出世，“航拍”这一消费场景才被彻底激活。

在大疆之前，航拍并非没有需求——影视剧组、新闻机构一直有这样的诉求，但代价是昂贵的直升机和专业摄影师，普通人望尘莫及。大疆的精灵系列，第一次让“从空中俯瞰”成为消费级的可能，激活的不只是一个既有需求，更是一个从未被满足因而也几乎不被人意识到的潜在渴望。“航拍”因大疆而成为一个真正存在的市场品类，这个品类又反过来成为大疆最厚实的护城河。此后，大疆凭借消费级技术与专业级能力的融合，将业务延伸至电影制作、工业监测及农业植保等场景，构建起强大的生态壁垒。所有这一切，都是在“航拍”这个真实场景被打通之后才有的故事。

这正是理解宇树当前处境的关键。

招股书内提到，在需求端，除特定应用场景外，通用机器人的消费级市场尚未形成刚需。现在的宇树，就是发布精灵前的大疆：技术领先，硬件精良，但那个能真正回答“我为什么需要它”的消费市场还没有被引爆。

两届春晚让数亿中国人留下“人形机器人原来已经发展到这个程度”的印象，但曝光不是场景。抛开高校、科研机构甚至同业这些愿意为硬件平台买单的专业用户，宇树能否从“精彩的展示品”进化为“真正的产品”，仍有待一个具有爆发潜力的场景来完成临门一脚。

人形为何成立，落地从何开始

在找到那个场景之前，先解释一下为什么要做人形。“人形机器人”不是因为想要取代人类而固执地模仿人类形态，它只是一种更好匹配环境的策略。人类文明建造的所有物理空间，比如门把手、楼梯、驾驶座、键盘、工具台的高度，这些都是为一个两条腿、两只手、站高约1.7米的生物设计的。如果机器人要快速进入既有的人类世界，而不是让人类重新建一个为机器人设计的世界，那人形就有巨大的工程优势。

矿山作业、高空灭火、核电站检查，人形机器人在这些场景内，相较于无人机或履带机器人，形态优势并不突出。真正能发挥人形价值的，是那些由人类建造、为人类设计、深度嵌入日常生活的空间。

从这个角度看，家务活、儿童照料、老年陪护是诱人的方向，但也是最遥远的场景。它对“大脑”的要求是所有场景里最苛刻的。机器人必须理解人只言片语下的真实意图、适应千变万化的家庭环境、处理突发状况，这些能力恰恰是当前行业需要攻坚的地方。

招股书里似乎透露了一点更务实的苗头。宇树的工业级具身大模型 UnifoLM-X1-0 已在自有工厂中完成试点部署测试，可自主完成关节电机装配等任务。工厂场景的特点是任务的种类相对有限，可以进行密集的数据采集和反复训练，且用人成本足够明确，使得机器人替代有清楚的经济账可算。这也是特斯拉发展人形机器人Optimus的思路，先部署在Giga Texas等特斯拉的超级工厂，专注于危险、重复或枯燥的工作，例如搬运笨重的电池组、组装微小螺丝或在仓库内巡逻，以后再向其他领域延伸。

具身大模型与语言大模型的训练逻辑存在根本差异。语言模型可以从互联网上的海量文本中学习，而具身智能的大脑需要的是身体与真实世界交互的数据。这些数据无法从书本里获取，必须在真实的物理世界中积累。

场景，是训练大脑最好的土壤

回到前面提到的“大脑”能力的问题。如果宇树能够在某个具体场景里扎实地跑通，哪怕只是一个很窄的任务集合，那个场景就会变成一个持续产生高质量训练数据的引擎。随着数据量的积累，“大脑”的能力会在这个场景里先行突破，继而泛化到相邻场景，形成能力的滚雪球效应。反过来，如果宇树在没有找到真实场景之前就开始撒钱做通用大脑，那将是一场极其昂贵且方向不清的豪赌。

宇树的前路并不轻松。在人形赛道，“人形机器人第一股”优必选（09880.HK）已经抢先占位；工业场景里，深耕多年的机械臂龙头埃斯顿（02715.HK）也在加速向具身智能转型；在大洋彼岸，特斯拉Optimus背靠超级工厂的海量场景数据，正在走一条与宇树高度相似发展路径。宇树的突围答案，或许就在于比所有人更快在单个场景里跑通、扎深。

宇树的野心，在某种意义上比大疆更大。它不只是在开拓一个消费产品品类，而是在开拓一种与人类协作的新形态。机器人如果真的能规模化落地，对劳动力市场、生产组织方式乃至人类社会的形态，都将是深刻的重构。

王兴兴在致投资者的声明中写道：“当下，正逢全球AI与具身智能技术突破前夜，人类迈向更高级文明的黎明时分。”

在这之前，市场或许可以先期待一下宇树的“精灵时刻”。