登录注册
机器人更新:谷歌VLA实现了机器人理解人话并进行动作执行
白蓝小牛牛
追涨杀跌的随手单受害者
2023-07-31 07:41:08

tf电新】机器人更新:谷歌VLA实现了机器人理解人话并进行动作执行-0730

—————————

🌼事件

本周五,谷歌 DeepMind(人工智能部门) 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。

 

🌼分析

1 VLA模型表观效果

谷歌高管称,RT-2 Robotic Transformer)是机器人制造和编程方式的重大飞跃。借助 RT-2 的强大功能,机器人可以自己分析更多信息,自行推断下一步该做什么。举例说明:跟 AI 说“选择已灭绝的动物”,机器人可自行抓住了恐龙玩偶。在此之前,机器人无法理解它们从未见过的物体,更无法做把【灭绝动物】到【塑料恐龙玩偶】对应上。

 

2 VLA模型创新点

VLA是建立在视觉 - 语言模型(VLM)的基础上,它可以从网络和机器人数据中进行学习,并将这些知识转化为机器人可以控制的通用指令。VLM模型距离控制机器人还差【动作控制】部分,DeepMind研究员将机器人动作表示为另一种语言,即文本 token,并与 Web 规模的视觉 - 语言数据集一起进行训练。

 

3VLA模型对机器人发展意义

此前,训练机器人需要很长时间,研究人员必须为不同任务单独建立解决方案,而借助 RT-2 的强大功能,机器人可以自己分析更多信息,自行推断下一步该做什么,即通过将 VLM 预训练与机器人数据相结合,可以直接控制机器人,我们预计机器人训练速度可大幅提升。

 

🌼投资建议

智慧的大脑+灵活的身体是通用(人形)机器人的终极形态,目前实现具身智能的路径分为两种,1)运动控制优先:特斯拉、傅利叶等第一步实现【灵活的身体】,更适合体力劳动为主的应用场景;2)理解交互优先,以预生成式的大语言模型为基础,更适合脑力劳动为主的应用场景。

 

此次谷歌VLA模型的突破,【可加强机器人对人类语言的理解、分析能力,使得机器人更“智能”,从而大幅提升机器人训练速度,机器人进入千家万户服务人类的日子又进了一步;但本质上其动作执行仍然是基于文本化的语义理解,在生成动作速度的流畅性和连贯性上暂不如FSD等通用视觉-动作模型,因此前者更偏向于脑力劳动+简单动作的应用场景,后者更偏向于工程作业等动作更复杂的场景。】

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
中大力德
工分
1.95
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据