登录注册
ChatGPT4的多模态语音和图像更新
夜长梦山
2023-09-25 23:18:26
今天OpenAI放出的ChatGPT4的多模态语音和图像更新的模型其实叫GPT-4V(ision)。 OpenAI放出了19页的GPT-4V(ision)报告来解释这个模型,释放了大量信息: GPT-4V(ision)的训练完成于2022年,2023年3月开始提供早期访问。 GPT-4V 的训练过程与 GPT-4 相同,首先使用大量的文本和图像数据进行预训练,然后使用人类反馈的强化学习进行微调。 基于视觉的模型 GPT-4V(ision) 是受到了OpenAI与 "Be My Eyes" 的合作的启发。这是一个新工具,用于为盲人或视力受损的人描述视觉世界。 Be My AI 被整合到现有的 Be My Eyes 平台中,为盲人用户的智能手机拍摄的照片提供描述。 该测试确定 Be My AI 可以为其 500,000 名盲人和低视力用户提供前所未有的工具,以满足信息、文化和就业需求。 这种合作帮助 OpenAI 优化 GPT-4V 的功能,使其能够更好地理解和描述图像内容,特别是在涉及背景中的人或其他复杂情境时。这样,用户可以获得更准确、更有深度的图像描述,帮助他们更好地理解图像中的内容。 OpenAI还研究了模型的基于地理位置的能力,以及模型破解 CAPTCHA 的能力。 GPT-4V(ision) 在地理位置识别方面的能力意味着模型可以识别和描述图像中的地理位置,例如识别特定的地标、建筑物或地理特征。这可以帮助用户更好地了解图像的内容和上下文。 模型还具有破解 CAPTCHA 的能力,CAPTCHA 是一种常用的在线安全验证方法,通常要求用户识别扭曲的文字或图像。 GPT-4V(ision) 可能具有识别这些扭曲文字或图像的能力,从而有可能破解某些 CAPTCHA 验证。但这也引发了关于模型可能被用于不正当用途的担忧。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
三六零
工分
11.67
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 交易者奋斗
    全梭哈的散户
    只看TA
    2023-09-26 06:37
    0
    0
    打赏
    回复
    投诉
  • 1
前往