Gemini的“0到1”
与具身智能 “10到100”

从生成式AI看具身智能的发展阶段与投资逻辑

0 1

基础范式突破

1 10

工程化优化

10 100

商业化爆发

引子:灵巧手 vs 大脑 —— 谁是核心?

  • 市场迷思:普遍认为硬件(如灵巧手)占大头,且力反馈待突破。
  • 核心观点:核心在于“智能”。过去一年进展低于预期。
  • 现状:产业想做“10到100”,但基础的“0到1”尚未完成。

“以下是最近面试时我问候选人的一个问题,不是我的结论”

2028年 硬件成本占比预测
0%

视频摘要: Figure 02 演示了结合OpenAI大模型的端到端语音对话能力,以及在放置盘子时的自我纠错(Self-Correction)操作,标志着具身智能正从单纯的“机械执行”迈向具备常识推理的“物理交互”。

借鉴生成式AI:从ChatGPT看“0到1”

Transformer架构 (2017)

Google发布《Attention is All You Need》,确立了底层范式。这是真正的“0到1”。

ChatGPT (2022)

基于架构的Scaling(扩大规模)与RLHF(人类反馈强化学习)。这是“1到10”。

2017 2022 Scaling & RLHF

Google的反超与“1到10”的胜利

从理想化的“银弹”思维转向务实的工程化优化

初期失误

DeepMind过于理想化,试图寻找模型自我训练的“银弹”。

战略调整

转向务实的“1到10”路径:工程化 + 数据优化。

核心启示:一切尽在数据 (Alignment)

1

Agent本质

将人类操作抽象为模型可理解的数据流。

2

多模态关键

数据对齐 (Alignment) 赋予模型长时序思考能力。

3

商业验证

Innodata & Scale AI 估值激增证实数据价值。

Innodata
股价翻倍
Scale AI
百亿并购
LlaMA 3
多模态掉队

应用层的陷阱:昙花一现的悖论

误区: 试图用小样本数据解决“1到10”的问题,却卖给处于“10到100”阶段的客户。

客户能力的双难困境

  • 客户能力强 → 自建模型 (不需要你)
  • 客户能力弱 → 需要全案替代 (不只是工具)

区别一:执行环境的鸿沟

大模型 (数字世界)

运行于纯数字环境,工具链成熟。

  • ✓ 现成的API接口
  • ✓ 软件生态完备
  • ✓ 完美的数字反馈闭环
10 100

具身智能 (物理世界)

必须在物理环境中从头模仿人类执行。

  • ✕ 缺乏物理执行数据
  • ✕ 无现成工具链
  • ✕ 需重构执行环节
0 1

区别二:发展阶段严重错位

大模型 (LLM) Stage: 10 -> 100
Transformer (0-1) Next Token Prediction (1-10) Applications
具身智能 Stage: Pre 0 -> 1
寻找“钥匙”中...

技术路线的迷茫

依赖大模型
过往尝试
空间智能 / 物理AI
当前探索
???
核心范式未定

为何缺失“0到1”仍能蓬勃发展?

虚假的繁荣建立在对硬件确定的依赖上

目标清晰具象

人类对机器人有明确定义(像人一样开车、做家务),愿景驱动投资。

系统解耦与KPI陷阱

执行部件(传感器、灵巧手)是确定的工程问题,易于立项和考核。

核心判断:大脑远比小脑重要

硬件视角 (局限)

机械出身者关注电机、灵巧手,视其为壁垒。

金融/软件视角 (真实)

硬件无壁垒,成本持续降低,面临快速折旧。

时间表预测:与AGI同步

具身智能的突破强依赖于AGI的实现

⚠️ 警示:未来五年技术变动剧烈,需警惕硬件资产的快速贬值。

最大的痛点:缺乏“计划到执行”的数据

自动驾驶对比

  • • 汽车是天然的数据采集器
  • • 驾驶指令 = 结构化数据
  • • 场景相对收敛(车道、红绿灯)
Easy 数据获取

机器人困境

  • • 人的力道、角度、手感难以数字化
  • • 缺乏记录“人如何执行”的载体
  • • 开放世界极度碎片化(抓鸡蛋 vs 抓铁块)
Hard 数据获取

Scaling Law在机器人领域的迷雾

效率低下

数字孪生获取数据的效率依然未能满足需求,真实物理数据无可替代。

特斯拉的大胆推测

生产前几十万台机器人的作用可能都不是卖,而是采集训练数据

隐形数据成本极高
0+
台机器人仅用于数采

竞争壁垒:不可蒸馏的护城河

结论:具身智能模型公司的门槛将远高于现在的文本大模型公司。

总结与投资逻辑:寻找“卖铲子”的人

应用层

容易昙花一现

机械硬件商

面临折旧与低毛利

价值洼地:配套服务商

解决“1到10”数据采集与处理难题

软硬数一体化芯片 数据中心服务 专用数据采集模组

关注“数据基建”,而非单纯的“机械躯壳”