事件:特斯拉通过推特发布Tesla Optimus 人形机器人最新的展示录像,1)实现目标物件的自主筛分;2)运动控制通过端到端神经网络进行训练;
亮点1,视觉感知能力升级:
1)识别 ,精准实现四肢位置校准、运动控制,实现色差物件分类抓取;2)纠错,具备排除干扰、自动纠错能力(不受外部人员干预动作的影响,自动扶正倒置物件)
#运动控制通过输入录像视频进行训练,与人类的学习机制类似,区别于通过编程控制(需要预编程,占用内存);
#与FSD V12的训练模式类似,意味着在自动驾驶汽车上的开发经验可以转移应用至人形机器人;
亮点2,运动控制能力升级:
#灵巧手,抓取放置物件的过程,对力度的控制能力强,整个动作展现出接近人手般的细腻和灵活;
#实现瑜伽的拉伸动作,并保持平衡,这要求极高的重心分配及动作定位、调整能力;
释放明确信号,通过自主学习的方式Optimus可以完成一列复杂动作,进一步的通过大量特定场景的任务素材输入和训练,Optimus能够在通用场景实现更复杂的工况和作业,只是时间的问题。
1、目前草根调研下来,大家普遍认为是超预期的。最超预期的点还是仅靠视觉+位置编码器就能借助算法实现这样的抓取。
2、快速咨询了国内专家比如智元等,整体上此前的研究中只有智元提到过一些这样的算法,其他国产的这块都还比落后;国产卷的地方主要在快速运动的运控算法层面,和T关注侧重有所不同。
3、目前海外研究的思路,Twitter下面马斯克回复了,底下楼层很多,我们还在一一总结,初步看下来外网也觉得很惊喜超预期,他们称这个是End to end neural network,Video in,Control Out;T在之前自动驾驶V12里实现的现在挪到了机器人上。外网认为这种“镜像”式的大模型学习最为超预期,而且特斯拉欢迎大家一起加入算法优化开发(比如他的瑜伽动作)。
4、硬件+算法上超预期的地方:特斯拉的静态平衡下算法做的很好,国内此前也提出过这个观点,特斯拉在静态场景下的精细化动作执行是他目标场景,所以带来了硬件方案的差异。
5、标的受益结论:所以视频中体现的特斯拉还是在自己原来的方案上进一步优化,整体上是利好全部T方案的硬件公司的(视频中此次着重提到的新的硬件的词语是——位置编码器,这个其实是在电机里,三花拓普总成的部分,上游生产这些的公司主要是禾川、奥普光电,但是这个准确说并不是新东西,这次的核心思路还是依靠比较简单的硬件+算法,实现了比大家预期好一些的效果)