登录注册
GPT-4o 和苹果生态落地会议内容,专家解读20240517
lize-zbscpz
疯狂点赞的老股民
2024-05-18 18:23:58

GPT-4o 和苹果生态落地会议内容,专家解读20240517

某手机厂商专家解读:GPT-4o 和苹果生态落地会议内容

1)GPT-40与以往的手机语音助手相比有哪些突破?

2)IOS系统和GPT-40如何合作?

3)语音助手如何控制手机预置应用和三方应用?

4)手机厂商如何考虑GPT4-0作为语音助手带来的算力成本?

摘要

本次讨论集中探讨了人工智能(AI)技术在提升手机和相关电子设备智能水平的各种途径,以及随之而来的一系列挑战和机遇。特别是在如何有效整合大模型如GPT-4与苹果生态系统,提升人工智能能力的同时,面临的数据合规性、成本控制、以及用户隐私保护等问题也被广泛关注。讨论指出,无论是采用端侧还是云侧技术,均面临着技术难度和成本效益的权衡。同时,提出通过情感识别和更流畅的人机交互等技术革新,能够改善用户体验,但这也需要解决技术上的实际挑战。此外,关于如何在国内推广类似技术,强调了需要充分考虑本地化需求和技术安全性的重要性。总体而言,本次对话反映了当前科技企业追求技术创新与应对风险挑战之间复杂的平衡过程。

         
问答

问:苹果如何与GPT-4O合作,并可能采用何种合作模式?

答:苹果可能会在云端引入GPT-4O的服务,这将使得其语音助手在云识别能力、翻译能力、数学推理等方面表现出色,与国内厂商在许多领域的领先地位形成分水岭。由于GPT-4O参数量巨大且依赖强算力,做成端侧合作的可能性较小,预计会采取云端的方式进行合作。    
问:GPT-4O的发布对过去的AI手机生态产生了怎样的影响?GPT-4O与国内现有的手机语音助手相比有哪些重大突破?

答:GPT-4O的发布对过去的一些AI手机生态产生了一定的影响,它作为一个原生多模态模型,在训练时将文本、视频和音频数据底层融合,使得其在交互体验上具有显著优势,如低时延(仅300多毫秒)和情感识别等特性。这对现有语音助手如国内和海外的同类产品形成了一定的竞争压力。GPT-4O的主要突破在于其多模态技术,它不需要经历文本转成文本的处理过程,可以直接理解音频、视频和文本等多种形式的信息,这在国内现有的硬件产品中尚未实现。此外,它还支持打断和多轮响应、情感识别等功能,这些都是过去国内语音助手所不具备的。
问:苹果引入GPT-4O后,国内手机厂商的应对策略是什么?

答:国内手机厂商可能会采取一种大模型中控的策略,利用大模型强大的语言理解和处理能力,将消费者的指令分派给不同的子模型进行处理,包括云端和端侧模型。同时,他们会结合多云策略和调用本地应用来完成复杂任务,以此来实现类似苹果接入GPT-4O的效果。    

笔者笔记:先大模型理解处理,再细分指令调用子模型API处理。一个好汉,多个帮)

问:目前苹果语音助手接入时,唤醒和识别是在本地还是云端处理?苹果语音助手接入GDP后,识别功能是否会转向云端?

答:苹果语音助手的唤醒和识别都是在本地进行的,它与国内厂商不同,后者普遍采用云端处理。苹果语音助手接入GDP后,识别功能不会走现有的端测识别路线,而是在云端调用名单识别功能。
问:情感识别在国内技术现状如何?

答:目前国内技术尚不能完全实现苹果的语气识别和情感表达能力,如生成语气词、阴阳顿挫等,但国内厂商已有能力改善TTS(文本转语音)技术以实现部分情感表达效果,但与苹果相比仍有差距。
问:苹果唤醒后是否可能使用云端模型,以及部分功能是否能本地与云端混合使用?

答:苹果唤醒可能直接使用GPT的云端模型,但具体任务的调用策略需要一个系统引擎来决定何时调用云端或本地模型。对于文本处理、生成等功能,本地模型就能胜任,但对于需要细腻度和准确率更高的多模态交互(如视频功能),可能需要调用云端模型。
问:目前的手机本地端侧模型能否控制预置应用及第三方应用?对于没有提供数据权限的第三方应用(如网易邮箱),GDP4O是否能绕过权限限制进行操作?
   

答:对于预置应用,如微信,本地模型可以轻松地通过关键词匹配或大模型限量匹配快速唤醒并打开应用。但当需要应用内部数据交互时,可能需要调用云端模型以实现更复杂的任务。GDP4O有两条途径处理第三方应用权限问题。一种是直接要求权限,另一种是利用多模态识别能力,对当前应用截图并利用agent进行操作,无需获取应用权限层面的交互。
问:GPT-4O如何在不获取微信授权的情况下读取聊天记录?

答:GPT-4O通过唤醒微信并使用其视频能力查找菜单位置和联系人信息,模拟人的视觉操作进行截图识别,然后通过agent思考、决策和提取文本来找到并读取所需聊天记录。
问:对于一个没有训练过的模型,它能理解不同应用的操作界面和按键吗?

答:不能,不同应用的操作界面和按键设计差异很大,需要提前演示、培训消费者或者由手机厂商提前进行训练。消费者需要通过实际操作打开应用并遍历菜单来让模型学习。

(笔者笔记:国产AI手机需要用户消费者,行为数据提前训练,让大模型学习)    
问:公司目前是否有与第三方应用进行合作或开发类似功能的规划?

答:有规划,公司已经开发了一个传送门功能,可以与下游应用进行交互。例如复制文本时,系统会调用模型理解能力,进行自动选择应用。随着功能发展,可能需要与更多应用进行权限交换或合作。

(笔者笔记:先大模型理解处理,再细分指令调用子模型API处理。一个好汉,多个帮。这里不就是和第三方APP合作开发,需要用到自己功能的时候,直接调用自己的API接口完成操作处理)
问:对于公司内部的本地模型(如地理位置或预制应用)为何选择保留本地而非打通?

答:主要是出于隐私合规的考虑。打通本地应用(如相册搜索功能)涉及到OCR识别和理解,目前尚不安全直接从云端执行,而是采用端侧处理,以保护用户隐私。
问:端测模型的安装包大小和云端模型相比如何?

答:端测模型的安装包大小约为143兆,实际模型运行需要放到云端,这个数字包含UI包装、缓存等,云端模型的实际比特大小要更大。
问:对于未来哪些功能会放在端侧,哪些会放在云端?
   

答:文本生成、文本处理、图像处理(抠图、智能识别、扫描翻译等)和大部分音频处理可以在端侧完成。对于涉及隐私敏感数据、需要学习用户习惯的服务(如自动弹出付款码等),则必须使用端侧模型。云端成本相对较高,主要体现在识别和调用大模型时产生的费用。

(笔者笔记:涉及到用户隐私敏感数据、需要学习用户行为使用习惯数据的,都需要放在手机端侧完成,那么就像上面聊到的国产AI手机需要用户消费者,行为数据提前训练,让大模型学习)
问:在苹果合作之后,对于10亿级用户同时调用中心算力的挑战,您的看法是什么?

答:如果苹果和10亿用户体量的手机厂商合作,由于权值form的价格和预测时需要便利的数据,10亿用户同时调用中心算力会导致云端交互变得不顺畅,这在当前的技术框架下可能难以支撑。
问:您能否预估一下一年内服务一个用户可能需要多少费用?云端的算力成本有没有框架计算过?

答:一般来说,一个手机厂商每年需要向识别相关的大模型供应商付费大约8千多万。如果苹果也接入这个大模型进行处理,按照当前国内LGB的价格,每用户费用可能在上亿级别。
问:您能否帮我们算一下将这些成本摊到单个用户身上大概是多少?
   

答:这个数据需要进一步测算,我们正在研究计算单个用户的成本问题。
问:您能帮我们预测一下未来市场的需求吗?对于苹果和iOS 18合作,您觉得谷歌的安卓系统是否有竞争力?

答:安卓阵营可能会在自身系统上进行改进,类似华为的强制接入大模型机制。但谷歌作为领头羊,更倾向于抱团取暖对抗苹果,预计会采取相应措施推动市场销量。
问:目前消费者对AI手机合作的期待有多大?是否会影响换机需求?

答:消费者对AI手机有较高期待,如果苹果成功推出AI手机,很可能带动一波销量,并且AI手机的概念对消费者具有吸引力。
问:如果国内厂商不接大模型,是否会导致苹果手机卖得更好?

答:是的,如果不接大模型,可能会导致苹果手机因自身模型优势而卖得更好,但关键还要看后续趋势发展。
问:作为国内手机厂商,在云端模型选择上会倾向于谁?

答:目前偏向选择百度作为云端模型供应商,因为百度在很多业务上表现比讯飞、阿里、腾讯更好,且有盈利的数据支持。    
问:与大模型厂商合作时是谈单个用户还是按token量谈?

答:一般按token量谈,但也会探讨是否可以灵活接入不同大模型,而非固定绑定某个厂商。
问:如果用户购买了搭载大模型手机后频繁使用,费用会算到厂商头上吗?

答:费用通常不会算到用户头上,而是由厂商通过其他途径分摊或盈利,比如通过推荐系统收取费用。

(笔者笔记:就像前面章节一自己的思考,open ai。未来5版本6版本的变线模式,从-4o版本看初见端倪其实能打开了,如果和苹果合作,那么生态圈调用,就会产生用户使用。产生购买之类的,有流量就有现金流。无非就是苹果和open ai和各大app怎么分蛋糕的问题了。这里根据手机专家的交流,的确这个模式)
问:在苹果和GV4O合作后,国内其他手机厂商是如何应对的?

答:各家厂商对AI战略定位有所不同,华为倾向于与下游应用合作,OV则倾向于构建自己的agent系统,小米、荣耀等厂商则在OS上进行变革,为引入大模型做准备。对于苹果的合作,厂商可能会对云端提出新的要求或寻找替代方案来缩短差距。
问:苹果与GV4O合作后,落地时间和具体产品形态是什么样的?
   

答:云端应用预计会在iOS 18发布时出现,而硬件则会在今年9月份的iPhone 17上体现,这将带动国内厂商瞄准AI手机定义进行相应变革和参照。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
漫步者
S
国光电器
工分
1.63
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往