登录注册
今夜 “炸裂”!AI大利好来了
职业炒手
航行五百年的机构
2023-09-26 09:07:12

OpenAI:将在ChatGPT推出新的语音和图像功能

OpenAI宣布,将在ChatGPT推出新的语音和图像功能,新功能将于未来两周内面向Plus和企业用户推出。据介绍,新功能允许用户进行语音对话或向ChatGPT展示其正在谈论的内容。语音功能将在iOS和Android平台推出,图像功能将覆盖所有平台。

语音输入功能类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT 就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。

OpenAI 表示,这样的交互方式更加自然和便捷,而且由于 LLM 的技术优势,答案的质量也会更高。OpenAI 还开发了一种新的文本转语音模型,可以根据几秒钟的样本语音,生成与之相似的人声。用户可以从五种选项中选择 ChatGPT 的声音,而且这种模型还有更多的潜在用途。例如,OpenAI正在与Spotify合作,将播客翻译成其他语言,同时保留播客主持人的声音。

不过,这种模型也存在一些风险,比如可能被恶意利用来冒充公众人物或进行诈骗。因此,OpenAI 表示,这种模型不会被广泛开放,而是会受到严格的控制和限制。

图像输入功能则类似于 Google Lens,用户可以拍摄自己感兴趣的事物,并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

ChatGPT 的优势在于它可以进行多轮对话,而不是一次性搜索。如果用户对答案不满意或想要更多信息,可以继续向 ChatGPT 提问,从而得到更准确和全面的答案。当然,图像搜索也有一些潜在问题。例如,在处理人物图片时,OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力,既为了保证准确性,也为了保护隐私,这意味着上传一个人的照片就能知道他 / 她是谁还无法实现。

OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问 ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

国盛证券分析称,Chatgpt即将开放图生文及语音对话功能,AI技术持续迭代再翻新一页

根据OpenAI官网信息,ChatGPT即将在两周内对plus用户与企业用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。其中,与Chatgpt语音对话的能力仅对ios及安卓客户端开放,而图生文能力对全平台开放。

语音对话能力使得用户可以更直接灵活地与ChatGPT互动,增强客户体验的便捷性。用户可以通过语音直接对Chatgpt对话,而chatgpt也可以直接以语音的方式回复用户,使用一种新的文生语音模型,其中可选的五种声音由chatgpt向配音演员特别定制而来。

图生文能力使得chatgpt可以读懂图片,拥有更广阔的应用方向。图像读取理解能力的背后,由gpt3.5或gpt4多模态模型支持。客户可以上传一张或者多张图片给系统,甚至可以用画笔标注重点内容,让系统读取理解,可以用于辅导学生作业、搜索日常食谱等各个方向。图生文能力的推出使得AI技术的应用领域大 大拓展,有利于AI在千行百业快速落地。

相关标的:

1)多模态应用:大华股份海康威视中科创达千方科技、虹软科技、当虹科技等

2)办公应用:金山办公、万兴科技、福昕软件、科大讯飞等。

3)落地快&估值性价比:大华股份、漫步者、传音控股、海康威视、紫天科技等。

4)算力侧:英伟达、中科曙光浪潮信息中际旭创工业富联云赛智联神州数码拓维信息四川长虹烽火通信、海光信息、恒润股份新易盛恒为科技易华录阿尔特润建股份、寒武纪、景嘉微中贝通信创业黑马等。


作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
浪潮信息
S
千方科技
S
科大讯飞
工分
2.46
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据