从生成式AI看具身智能的发展阶段与投资逻辑
基础范式突破
工程化优化
商业化爆发
“以下是最近面试时我问候选人的一个问题,不是我的结论”
视频摘要: Figure 02 演示了结合OpenAI大模型的端到端语音对话能力,以及在放置盘子时的自我纠错(Self-Correction)操作,标志着具身智能正从单纯的“机械执行”迈向具备常识推理的“物理交互”。
Google发布《Attention is All You Need》,确立了底层范式。这是真正的“0到1”。
基于架构的Scaling(扩大规模)与RLHF(人类反馈强化学习)。这是“1到10”。
从理想化的“银弹”思维转向务实的工程化优化
DeepMind过于理想化,试图寻找模型自我训练的“银弹”。
转向务实的“1到10”路径:工程化 + 数据优化。
将人类操作抽象为模型可理解的数据流。
数据对齐 (Alignment) 赋予模型长时序思考能力。
Innodata & Scale AI 估值激增证实数据价值。
误区: 试图用小样本数据解决“1到10”的问题,却卖给处于“10到100”阶段的客户。
运行于纯数字环境,工具链成熟。
必须在物理环境中从头模仿人类执行。
虚假的繁荣建立在对硬件确定的依赖上
人类对机器人有明确定义(像人一样开车、做家务),愿景驱动投资。
执行部件(传感器、灵巧手)是确定的工程问题,易于立项和考核。
机械出身者关注电机、灵巧手,视其为壁垒。
硬件无壁垒,成本持续降低,面临快速折旧。
具身智能的突破强依赖于AGI的实现
⚠️ 警示:未来五年技术变动剧烈,需警惕硬件资产的快速贬值。
数字孪生获取数据的效率依然未能满足需求,真实物理数据无可替代。
生产前几十万台机器人的作用可能都不是卖,而是采集训练数据。
结论:具身智能模型公司的门槛将远高于现在的文本大模型公司。
容易昙花一现
面临折旧与低毛利
解决“1到10”数据采集与处理难题