登录注册
全链条中国造,思考起来更像人!紫东太初全模态大模型2.0发布
放牛班的夏天
下海干活的机构
2023-06-19 11:27:06


鸿博股份有个远方的爹,叫英伟达

拓维信息有个眼前的爹,叫华为

汉王科技也有个爹,叫中国科学院自动化研究所

全链条中国造,思考起来更像人!紫东太初全模态大模型发布
全链条中国造
不光能读懂文字、图像,还能理解音频、视频,甚至3D模型、传感信号,思考起来更像“真人”。6月16日,在“人工智能框架生态峰会2023”上,中国科学院自动化研究所所长徐波发布了“紫东太初”全模态大模型。作为升级后的2.0版本,它不仅实现能力提升,还做到全链条“中国造”,打造出全栈国产化的通用人工智能底座。


何谓全模态大模型?“人的学习受到现实世界中视觉、听觉、触觉、嗅觉等各种信号的综合影响,这些信号每一类都是一种模态,人类的学习过程是全模态的。但目前最常见的大语言模型仍以文字、图片为主要模态,对音频、视频等信息的识别能力不足。”中科院自动化所紫东太初大模型研究中心常务副主任王金桥介绍,在“紫东太初”诞生之初,科研团队就提出要像养育婴儿一样,为它营造全模态的学习环境。

早在2021年7月,全球首个千亿参数的多模态大模型“紫东太初”1.0就已发布,实现图像、文本、语音三类数据的相互生成。而历经近2年的迭代,“紫东太初”2.0的能力再升级,除了读懂图文外,它还能“看懂”来自现实世界的影像数据、力触觉、工业传感信号等物联数据,可以像“人”一样综合运用多种信号进行思考。

给出一张救护车图片、一段森林救火的视频和一段警笛音频,“紫东太初”能识别并讲述出一段完整的救援过程;而将一张图书馆的照片和汽车鸣笛声音频同时输入,它则快速发现了其中的矛盾,认为这段音频不太可能出现在图书馆场景之中。

在同样的参数量级中,多模态大模型的能力会强于纯粹的语言大模型,这意味着“紫东太初”可以用更少的训练数据实现更优的效果。“其实这也很好理解,多种信息的综合输入,能够降低认知成本,但这对科研的挑战更大。”王金桥说,得益于团队在多模态数据领域的多年积累,科研人员以语义为桥梁,将音频、视频、物联数据等模态联系起来,“在这条研发路径上,我们走在了世界前列。”

“从算法到硬件、算力,‘紫东太初’都是‘中国造’。”王金桥表示,大模型算法为中科院自动化所自研,国产化基础软硬件昇腾AI平台作为基础设施,算力则由武汉人工智能计算中心提供支持,“在国产软硬件的支撑下,我们的大模型一样能跑得很好、很快。”

大模型所掌握的数据种类越多,与真实世界的交互能力就越强,在不远的将来,多模态大模型将普惠千行百业。目前,“紫东太初”大模型已在法律咨询、交通出行、医疗健康等领域开始引领性示范。例如,通过部署“紫东太初”,中科院自动化所自研的微创柔性手术机器人MicroNeuro拥有了融合触觉与视觉的跨模态分析能力,它已完成国际首例深位颅内活检手术,并有望随着大模型升级拥有对神经外科手术场景的自主理解。

“紫东太初”还开放了服务平台,支持各行业根据各自需求“组装”模块,再输入少量的行业样本数据,就能产出自主可控的行业相关大模型。徐波表示,未来3至5年,包括“紫东太初”在内的我国大模型技术,将在促进数字经济发展方面发挥重要作用,进一步释放、提升各行业的劳动生产率。

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内没有卖出计划。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
汉王科技
工分
3.16
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往