登录注册
ChatGPT多模态更新速评
夜长梦山
2023-09-26 08:37:46
ChatGPT多模态更新速评 1、多模态是实现AGI(通用人工智能)的必经之路,实际上GPT-4已经编码了图像语义,可同时接受文、图两种模态的输入,拥有深入理解图像全部细节的图像理解能力。 OpenAI今天同步放出了19页的GPT-4V(ision)报告来解释这个模型,释放了大量信息: 1)GPT4V在2022年训练完成,训练过程与GPT4一致,2023年3月开始提供早期测试 2)早期测试重要环节是与Be my eyes一同完成的安全性测试,从最初200名盲人测试到9月份16000名盲人和每日2.5万份反馈,再到后期超1000名alpha测试人员,GPT4V已经很好解决幻觉、隐私、验证码破解、安全性等问题; 3)GPT4V已经可以在图像中获取复杂信息,如在科学出版物中提取非常专业的图像以及带有文本和数据得图表,甚至能识别毒蘑菇,但在医疗等问题上有时会给出错误答案 4)GPT4V体现出一定抵抗根据推论和刻板印象的例子 5)GPT4V得到GPT4过滤器的加持,能够有效拒绝生成各类不良图片。 6)GPT4V下一步投资重点:隐私等安全问题、与全球其他语言的适配、降低刻板印象 2、此次ChatGPT升级最重要的细节是进一步明确大模型进入移动终端的必然趋势:Chatgpt语音对话的能力仅对ios及安卓移动终端开放,图像功能虽然可全平台开放,但实操层面可能使用场景大部分仍然在手机终端。正如我们此前强调:交互数据都在终端,应用场景都在终端,多模态大模型这一逻辑更强。 3、实际如何使用?提交照片、屏幕截图以及包含文本和图像的文档(一张或多张),使用自带绘图工具圈出特定物体(可选),直接与ChatGPT交流。 4、官方给出五种使用案例: 1)拍摄冰箱和食品储藏室的照片,以确定晚餐的食物(并询问后续问题以获取分步食谱); 2)通过拍照、圈出问题来帮助孩子解决数学问题; 3)拍照自行车让ChatGPT寻找需要调整的零部件,拍照自己的自行车安装说明书和工具箱,ChatGPT可以明确选出工具箱中的工具并给出安装建议; 4)拍照排查烤架无法使用的原因; 5)分析复杂数据图表。 5、语音交互能力:语音交互技术基于Whisper,目前OpenAI已经支持通过几秒钟真实语音制作逼真的合成语音,Spotify正用这个技术提升翻译能力和语音口播业务规模 民生计算机吕伟
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
大华股份
工分
1.96
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据