登录注册
多模态LLM:Google vs OpenAI
投研掘地蜂
2023-09-23 21:05:24

[庆祝]多模态LLM:Google vs OpenAI
??事件:近期大模型频繁更新,LLM或将加速进入多模态时代。据The Information消息:1)Google的下一代多模态模型已向少部分用户开启试用,同时推进Gemini与其消费者服务的整合。2)OpenAI正准备广泛推出GPT-Vision多模态能力,同时正在训练新的多模态模型Gobi。
??新模型:9月21日,OpenAI宣布DALL-E 3,基于ChatGPT上原生构建。一方面,DALL-E 3继承了ChatGPT强大的语言对齐能力,更好的理解prompt理解;另一方面,DALL-E 3赋予了ChatGPT多模态能力,能够直接在对话中生成图片。DALL-E 3现在处于研究预览阶段,10月向ChatGPT Plus和企业客户开放,秋季通过API和OpenAI Labs网页提供。
??其他模型更新:9月19日,Google Bard发布大更新,1)支持使用Google搜索核查Bard的回答(仅英文),并索引到相应的链接,开启“联网”能力;2)Google Lens支持上传图片,之前只能读取网页图片,相当于多模态能力更好用了。9月19日,OpenAI向开发者推送邮件,宣布新的gpt-3.5-turbo-instruct模型发布,替代text-davinci-003等旧模型。Gpt-3.5-turbo-instruct仍属于InstructGPT 3.5系列模型,价格与gpt-3.5-turbo 4K模型一致。
点评:模型是一切好的应用的基石,是“基础理论”研究,建议持续关注。而多模态也是海外模型龙头一直在做的,包括Google将PaLM扩展到AudioPaLM和PaLM-E,Meta发布CV领域的SAM和音频领域的AudioCraft,Stability AI将Stable Diffusion从文生图扩展到音频领域Stable Audio等。Google的Gemini和OpenAI的DALL-E 3 & Gobi或将加速LLM的多模态进程。
欢迎联系:华泰计算机 谢春生/郭雅丽/范昳蕊/彭钢/袁泽世/林海亮/岳铂雄

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万兴科技
工分
2.07
转发
收藏
投诉
复制链接
分享到微信
有用 6
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往