ChatGPT多模态更新速评
1、多模态是实现AGI(通用人工智能)的必经之路,实际上GPT-4已经编码了图像语义,可同时接受文、图两种模态的输入,拥有深入理解图像全部细节的图像理解能力。
OpenAI今天同步放出了19页的GPT-4V(ision)报告来解释这个模型,释放了大量信息:
1)GPT4V在2022年训练完成,训练过程与GPT4一致,2023年3月开始提供早期测试
2)早期测试重要环节是与Be my eyes一同完成的安全性测试,从最初200名盲人测试到9月份16000名盲人和每日2.5万份反馈,再到后期超1000名alpha测试人员,GPT4V已经很好解决幻觉、隐私、验证码破解、安全性等问题;
3)GPT4V已经可以在图像中获取复杂信息,如在科学出版物中提取非常专业的图像以及带有文本和数据得图表,甚至能识别毒蘑菇,但在医疗等问题上有时会给出错误答案
4)GPT4V体现出一定抵抗根据推论和刻板印象的例子
5)GPT4V得到GPT4过滤器的加持,能够有效拒绝生成各类不良图片。
6)GPT4V下一步投资重点:隐私等安全问题、与全球其他语言的适配、降低刻板印象
2、此次ChatGPT升级最重要的细节是进一步明确大模型进入移动终端的必然趋势:Chatgpt语音对话的能力仅对ios及安卓移动终端开放,图像功能虽然可全平台开放,但实操层面可能使用场景大部分仍然在手机终端。正如我们此前强调:交互数据都在终端,应用场景都在终端,多模态大模型这一逻辑更强。
3、实际如何使用?提交照片、屏幕截图以及包含文本和图像的文档(一张或多张),使用自带绘图工具圈出特定物体(可选),直接与ChatGPT交流。
4、官方给出五种使用案例:
1)拍摄冰箱和食品储藏室的照片,以确定晚餐的食物(并询问后续问题以获取分步食谱);
2)通过拍照、圈出问题来帮助孩子解决数学问题;
3)拍照自行车让ChatGPT寻找需要调整的零部件,拍照自己的自行车安装说明书和工具箱,ChatGPT可以明确选出工具箱中的工具并给出安装建议;
4)拍照排查烤架无法使用的原因;
5)分析复杂数据图表。
5、语音交互能力:语音交互技术基于Whisper,目前OpenAI已经支持通过几秒钟真实语音制作逼真的合成语音,Spotify正用这个技术提升翻译能力和语音口播业务规模
民生计算机吕伟
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。