登录注册
多模态技术加速,AI商业宏图正启
金融民工1990
长线持有
2023-12-20 19:39:49

会议要点

1. 多模态AI商业潮流观察

多模态AI技术发展迅速,得到市场高度关注:三季度起,多模态相关信息和模型进展引起产业界关注,预示着AI应用用户增长及技术价值释放。

AI投资主线清晰:海外大模型迭代强大落地性,国内大模型应用量起,科技地位突显。建议投资人关注AI领域,尤其多模态技术变化。

多模态技术促进多行业AI应用发展:将推动电商、游戏、教育、体育等领域AI应用,推荐关注受益于AI视频应用的多模态技术公司。

2. 多模态AI技术驱动产业发展

多模态AI技术正在实现突破:三大方向包括泛化性、模型生成质量/稳定性和可提示性的提升,推动了视觉算法的加速发展。

技术进步推动商业应用增长:开源和闭源玩家借助泛化和低门槛AI模型加速商业化,特别是闭源玩家通过技术反馈迭代实现盈利。

国内公司可受益于全球技术发展:国内大厂和创业公司在多模态领域追赶技术潮流,通过应用生态实现商业变现。

3. 多模态AI技术布局及应用

多模态技术的投资机会:首推具备多模态技术布局的公司,其次是电商、游戏、教育等AI应用受益领域,再次是3D资产生成及AI视频应用领域的公司将整体受益。

多模态AI模型定义:结合文本、图像、音频等多种模态的人工智能模型,能处理多种输入并生成多种模态结果。

多模态大模型的应用进展:谷歌的Imagery模型对行业影响大;ChatGPT等模型体现在聊天方式多样;Snapchat的多模态聊天机器人拥有多的付费用户。

4. 多模态AI引领商业新纪元

多模态AI应用景观:DGAI应用快速增长至2000万用户,提供虚拟聊天数字人;Journey应用通过自然语言生成图像,优化图像生成应用。

CSS公司专业于高质量数字人视频制作,行业领先;而Flight专注于专业设计师和创作者,以高频使用和成功作品工作流作为竞争优势。

AI语音合成进步显著,使用多模态大模型的TDS技术取代传统TTS技术线路;在音乐合成方面,多模态大模型已展现一流水平,音乐生成by AI成为新趋势。

5. AI多模态领域的技术革新

Google的多模态大模型显示,通过增加数据量和模型参数量,不同模态之间可以实现融合。

GBT4.5预计将在近期发布,并将带来重要的多模态功能升级,例如跨语言音频、视觉视频等。

Meta预计明年年初发布多模态AI模型,可能集成到Net的AR智能眼镜,实现现实世界物体的视觉识别。

6. 多模态AI技术挑战与前瞻

多模态技术挑战与方向:技术路线区别显著,需解决输入层不同模态对齐融合、有效利用大模型优势,如用大图像编码器优化模型,及开发能统一编码多种模态数据的编码器。

国内外多模态技术差距:国内两家领先企业与海外一年内差距可望缩小,多模态差距比大语言模型小,多元数据和算力充足是优势。

未来多模态AI发展趋势:谷歌与质朴开源多模态大模型,数据和参数量增大、数据质量提升是未来发展关键,1-2年内有望见到新模型。

7. 多模态技术与AI商业前景

在多模态领域中,全模态AI需求更大的算力。虽然在最通用的多模态模型上与海外存在较大差距,但是在特定领域如语音识别技术上与国际水平差距已拉平。

多模态应用最先可能爆发的领域为电商媒体和营销,未来3~5年具有想象力的应用方向为具身智能和自动驾驶,特别注重多模态内容生成。

短期内,文本图像理解和图文互动的多模态应用将出现,而长期看,视频生成、三维生成和相关技术突破值得关注,尤其是其在AI和自动驾驶领域的应用潜能。

会议实录

1. 多模态AI商业潮流观察

自多模态技术推出以来,我们注意到日活跃用户持续创新高,谷歌也推出了大型多模态模型,并且多模态领域的技术得到了市场和产业界的高度关注。近期,国外疑似有关GPT-4.5模型信息的泄露,展示了多模态功能的显著升级,包括支持跨语言、音频、视觉、视频和3D的多模态功能,以及复杂推理和跨模态的理解能力。

 

我团队自9月份开始多次强调,行业有望进入以多模态技术为代表的新技术升级周期,这将带动AI应用用户增长和大模型价值的进一步释放。之前市场在多模态研究方面相对空白。

 

昨天我们发布了深度报告——多模态技术助力AI商业蓝图展开,希望帮助投资者理解多模态技术趋势,包括与大型语言模型的发展联系,亦探讨了当前多模态产品的商业模式和发展前景。我们认为,AI将成为未来相当长一段时间内一个重要的投资主线,基于以下三点:海外大型模型不断迭代显示出强大的实际应用能力;国内大模型格局逐渐清晰,应用呈现增量趋势;科技在各类重要会议中地位进一步提升。因此,我们建议投资人持续关注AI领域,特别是多模态技术的变革。

 

标的推荐方面,我们持续重点推荐如昆仑万维、万鑫科技和美图等公司。我们认为多模态技术将促进电商、游戏、教育、营销、体育等领域AI应用的发展,建议关注相关公司,如焦点科技、掌趣科技、中文在线和盛天网络。同时,推荐关注受益于AI视频应用发展的技术公司,如宏软科技、当红科技等。

 

上述即是我们报告的核心内容以及本次会议的背景介绍。接下来,我们将进入今天分享的主环节。今日分享分为三部分:首先由我的同事郭露娜简要分享我们深度报告的内容,时长约10至15分钟;然后请专家陈总分享国内外大模型的技术进展及主要应用案例,时长约20至25分钟;最后留出15至20分钟的提问互动时间。现在,我将时间交给郭露娜。

 

谢谢。下面我来报告我们最新发布的多模态深度研究。今天主要分享报告中的三个核心结论。我在这里更新三个主要结论:

 

首先,多模态数据在整个模型发展中占据了重要的地位,并且通常与算法同步发展。目前,多模态数据需要文本标注后进行训练,使得构建这些数据集的工作量相对较大,进而我们观察到高质量多模态数据集的发布与垂直领域算法突破通常是同步发生的。例如,我们看到纹身图技术在2014年就已经开始探索,但直到2021年和2022年两个大规模高质量数据集发布后,才促进了纹身图模型的迅猛发展,诸如Mikini等模型。对比现在的视频生成和3D资源所涉及的数据集,在规模和质量上可能还有提升空间,图形与视频数据集还需进一步发展。

 

2. 多模态AI技术驱动产业发展

如果我们进行一个粗略的比较,可能认为视频生成技术现在正处于图像生成于2021年的阶段。3D生成可能还更早期一些。未来如果在数据集上获得重大突破,那么将会大幅推动整个行业的发展。

 

首先,过去视觉算法在三个方面的突破,实质上推动了今年以来技术的加速发展。第一个是泛化性,OpenAI在2021年推出的模型显著加速了视觉模型的发展,很多视觉模型开始采用它作为编码器或图像筛选基础。第二是可提示性。例如,2022年的CLIP和2023年的Sam模型都无需微调即可解决多样的多模态任务,这加快了视觉理解技术的发展。最后是模型生成的质量及稳定性突破,例如2021年的扩散算法理论上进步带动了2D图像和视频的影响力。事实上,2D图像生成一直引领行业前进。

 

我们观察到,2D图像生成在数据和算法算力上的要求相对较低,因此更易于实现技术突破。由于整个扩散模型在2D领域取得巨大成功,现在,其他领域如视频生成和3D资产生成正试图应用类似技术。现在2D领域可能正逐渐进入技术收敛阶段。

 

我们发现主流生成算法在生成端普遍采用了扩散技术,比如C-VAE和DiffusionPatterns。与此同时,视觉领域的生态系统实际上也领先于企业的视觉技术。目前主流玩家大致分为两类,第一类是基于开源模型的应用,像ST加密货币的日活跃用户已经超过1000万人。第二类是闭源应用,例如Midjourney,API的Delhi和DALL·E结合Chrome提供简洁的使用体验,并且无需微调,使使用门槛降低,同时在生成效果上实现了更好的平衡。Midjourney凭借先发优势,透过收集用户反馈推动技术迭代,并通过数据驱动的方法提供更佳产品体验。

 

最新数据显示Midjourney在Disco服务器的成员数量已超过1700万人,而且服务已实现盈利。对于国内企业,则需要借鉴国外开源算法,积极赶超技术。一些中国大厂正在积极布局多模态领域,并寻求商业变现。结合自身应用生态,他们将开发垂直行业应用,由此受益于整个行业技术的发展。在投资建议层面,随着多模态技术的迭代与创新,相关AI应用将进一步加速,未来AI技术可能与MR产生共振,开创新的生产力工具和消费端娱乐应用。

 

3. 多模态AI技术布局及应用

在多模态技术领域,我们首先推荐关注在此方向上进行布局或具备布局能力的企业。此外,从多模态技术的进步中受益的行业,例如电商、游戏、教育和营销领域的AI应用,也值得关注。第三,受益于AI视频应用发展以及AI三维资产生成的企业,同样处于有利位置。我们认为,这些公司将整体表现出积极的受益趋势。对于投资者而言,如果对我们的报告需要更详细的了解或希望进一步探讨,可以随后与我们团队联系。我这边的汇报就此结束,下面的时间交给即将发言的专家。

 

谢谢罗拉。下面请今天的专家分享从他的角度出发对多模态大模型的进展及应用进行的评价,预计发言时间大约为25分钟。

 

谢谢周总。大家好,现在我将开始我关于多模态大模型的最新应用和技术进展的分享。首先简要介绍一下多模态大模型,现存模型以及相关产品,接着是技术进展,最后讨论目前的挑战和解决方案。

 

多模态大模型简要定义为,结合文本、图像、音频等多种模态信息进行学习和理解的人工智能模型。此类模型不限于处理单一类型的输入,如文本、图像、音频或视频,还能处理三维信息、动态智能等多样的数据源。

 

目前,多模态大模型的应用广泛,包括但不限于多模态生成任务、问答系统、文本和图像的匹配与生成等。在国际市场上,多模态AI产品随着谷歌的Germany模型的发布而迎来了新的突破,对整个行业产生了深远影响。

 

除了Germany模型,目前已有其他多模态模型,例如casaicacai,在聊天方面表现出色,支持文本、语音或图像交互。Snapchat推出的聊天机器人,myAI,已积累了大量付费用户和订阅用户,提供优秀的多模态聊天体验和视觉互动功能。从这些例子来看,多模态大模型注定要带来行业的革新,其中虚拟形象的对话方式也成为了一个新兴趋势。

 

4. 多模态AI引领商业新纪元

最近几天,一款名为DGAII的应用刚刚发布,短时间内就拥有了2000多万用户。这是一个多模态AI技术的应用实例,具体是一种虚拟的聊天数字人。另一个例子是AI生成图像领域的应用,如Journey,它允许用户通过自然语言生成图像,这方面是一款相当实用的产品。此外,还有CSS这家公司,成立于2017年,主要为B2B公司提供视频制作方案。它能够通过文本生成高质量、接近真人的数字人。横向比较同类产品,该公司的产出在自然感和拟人质量方面已经达到可与真人媲美的水平,也是目前业界公认的一家优秀公司。目前,该公司的融资规模已经相当可观,对行业的影响也日益显著。

 

还有一类应用专注于AI视频创作,例如Aitoubi的Fifi,包括最近颇受关注的P卡,以及更早的Runway。这些公司专门从事AI视频生成,但它们的口碑普遍不如flight,特别是在设计师群体和专业工作室或个人创作者中。flight在使用频率和成功作品生成工作流程方面,口碑更佳,显示出一种后来居上的趋势。

 

Fifi之所以能够后来居上,得益于Aitoubi社区的优势,以及其传统图像编辑功能的结合。现在发现,其技术能力已经接近行业同行,所以更多的竞争会集中在传统能力和生态优势上。

 

另一个值得关注的AI数字人产品是Ella,一款人工智能驱动的视频生成平台。国内深圳的创业公司黑镇海外发布了类似AI生成数字人视频的产品。目前,这些多模态视频生成技术在数字人领域表现卓越,但在其他方面如视频编辑和电影级别的视频制作,还未达到商用阶段。然而,数字人技术已完全可以用于商业目的,而且表现出色。

 

AI语音方面,SembleAI公司以及OpenAI和国内的memax等,都在利用大型模型来进行语音合成。现代的TTS技术相比过去已经有了巨大变革,多模态大型模型在语义理解和表现自然断句、情感调节方面更加出色。我们预见传统TTS技术可能会被基于多模态大型模型的新技术路线完全取代。

 

AI还有能力进行音乐合成。MUSIC这款应用就是基于人工智能的音乐合成引擎,已在音乐合成领域达到了世界一流水平。它通过大型模型生成无尽、无版权的音乐作品,未来可能达到接近真人创作水平。

 

对于更垂直细分的行业,像服装设计领域,已有公司利用特定的多模态大型模型为奢侈品品牌提供设计服务,并显著提高运营利润。这是一个展示如何利用大型模型在特定领域的能力的优秀案例。

 

在医疗领域,AI多模态技术也展现出其潜能,尤其在蛋白质、分子生物学及药物研发等领域。adirGPT等案例展示了多模态大模型在药物发现和生物医学研究中的应用前景。这些进展预示着AI多模态技术在医疗研究领域可能会引发一场变革。

 

5. AI多模态领域的技术革新

谷歌最近在德国发布的超级大规模多模态大模型,实际上证明了通过扩大数据量和增加模型参数量的方法,在各种模态间是有融合可能性的,这包括医疗领域的生物数据。谷歌已经展示了一条潜在的成功之路。预计其他行业,包括医疗行业,将会在未来一段时间内加速尝试更大的参数和数据量,可能我们将会看到一些明显的进展。

 

我们注意到有些特定场景,像提到的ASP和gentoo(应该是误识别,可能指特定的应用)在娱乐领域已经相对火热,并且取得了实际应用。尽管多模态大模型在许多垂直细分行业中的应用仍然存在难度,娱乐行业的应用却已经非常接近落地。例如,可见像娟兔(可能是误识别,需确认具体指代)和皮卡(同样可能是误识别)在娱乐场景中制作的视频已经是成熟的产品。

 

在技术上,相比国外,我们国内产品在自然语言处理和语音识别方面,包括多模态融合技术还存在一些差距,接下来我们将详细介绍这些技术进展和差异。

 

根据一些泄露信息,GBT4.5预计可能在年初发布,这是openAI最先进的模型*。与GBT4b(文本图像模型)相比,GBT4.5大幅度升级了其多模态功能,完全能与谷歌的模型媲美,支持跨语言的音频、视觉视频处理,以及更复杂的推理和框模态理解能力。

 

传统的模态融合技术,包括GPT4.1,通常是在浅层次分别编码模态数据,之后再深层逻辑上进行融合。GBT4.5和谷歌的模型则在一开始的编码环节便开始融合多模态数据,这表明它们在理解不同模态间的共通性和进行信息互补方面具有本质区别。在输入层就进行多模态数据编码是GBT4.5将有的重大能力提升,也是技术路线上的一个重要转变。

 

其他方面,加州大学研发的miniGPT5虽然是开源的,但仍沿用旧技术路线,分别使用文本编码器和图像编码器,并在之后进行融合。与之相比,GBT4.5和谷歌的模型已经不再遵循这一路线,在输入层就通过同一个编码器处理各种不同模态。

 

此外,Meta近期表现优异的anyMo(应该是anymore的误识别)多模态模型虽然采用新的编码技术,但效果上似乎并不如谷歌的模型。Meta计划很快发布一款类似谷歌技术的多模态大模型,我们可以期待其与GBT4.5同时发布。

 

Meta的CTO预计,他们的多模态AI模型可能会在明年年初发布,并可能被集成进Net的AR智能眼镜。这种眼镜可能会带有摄像头,可以进行物体的视觉识别。佩戴者可以通过简单的命令(比如takephoto或者询问what theysay)来进行交互,从而获得对看到物体的理解和描述。预计Meta将推出的多模态AI模型,会成为一项非常酷的应用。

 

6. 多模态AI技术挑战与前瞻

总结来看,我们目前面临的主要挑战及解决方案主要包括以下三点。首先,新兴技术路线与传统技术的本质区别在于:如何在输入层实现不同模态的对齐与融合,以达到高效的检索任务推理能力,并实现多模态深度融合。其次是如何充分利用大型语言模型如GPT-4的优势以构建有效的多模态大型模型。目前的大语言模型已展现出强大的推理能力,甚至给人以智能存在的感觉,此类模型与过去的NLP模型相比有显著区别。有效利用大语言模型的训练优势是技术挑战之一,而解决方案可能在于采用更大的图像编码器。

 

另外第三个挑战是多模态与全模态的统一编解码器的实现。不同模态数据的分布和结构差异显著,例如图像与视频相近,可视为视频的单一帧,故可用相同编码器处理。然而,若文本、图像、视频、3D数据、药物分子结构等均需用统一编码器进行编码,则难度显著增加。理想状态下,一种编码器能兼容不同模态,从而有效地促进对比和融合,这是当前面临的主要技术挑战。前沿研究,如MapTransformer,已在多模态数据的统一编码方面取得进展。这些数据被映射到共享的“Inviting”空间,通过公共编码器提取特征。但这种训练方法难以收敛,可能由于数据量或参数量不足。谷歌已经实现了文本、图像、视频、语音的多模态训练。未来,我们可以期待通过扩大参数和数据量以及提高数据质量来实现这种强大的训练方法。

 

关于国内多模态大模型的进度和与海外的差距,国内在这一领域表现出色的公司,如质朴和minimax,均在开展多模态大模型的研发。其中,质朴可能会公开其中博泰模型,minimax已在3D文本、图像、语音等方面取得成就。多模态大模型领域的其他公司,诸如百川等,仍在等待进一步发展。与海外的差距来看,国内的大语言模型落后于海外,但在多模态大模型方面,国内公司已显著缩小差距,可能仅有一年之遥。例如,基于谷歌GPU的众多项目标志着国内外公司的距离正在缩小。国内对视频数据的处理尤其多元化,源于平台如抖音、小红书的视频数据资源。这些都在支持国内公司多模态大模型的研发。

 

投资者认为多模态训练可能需要更多的算力支持,且国内与海外相比因研发起步晚及算力限制存在明显差距。但是,从某些特定模态角度来看,比如语音领域,国内的多模态模型已接近海外如GPT-4的水平。因此,如果我们综合考虑,多模态大模型与单纯的语言模型相比,其差距要稍微小一些。

 

7. 多模态技术与AI商业前景

纯粹从最强的多模态能力来看,即全模态,包括视频和多种语音智能数据,函数以及API的多模态数据用于训练最通用的多模态大模型时,所需的算力非常大。在这一方面,其与海外的差距可能比语言模型的差距还要大。然而,在多模态技术中,有许多跨模态的大模型。以语音为例,其差距已非常小,甚至已接近或者相当于海外的水平。

 

所以,总体而言,多模态技术的差距并不大。但是,如果我们专注于最通用的多模态大模型,它们的差距较大语言模型则更为显著。所以,这与您的理解并不矛盾,关键在于如何理解多模态大模型的差距。对于最通用的多模态大模型,差距显然更大。而如果将跨模态大模型也纳入多模态大模型的范畴,那么语音模态的差距已经与国外同步。

 

谢谢解答。关于互联网上一些公开的信息,从国内技术和应用创业的角度来看,多模态领域里最值得期待的应用方向是什么?哪些领域或产品形态最有可能先实现突破?

 

目前来看,最先实现突破的可能是电商媒体和营销领域。在这些领域,未来多模态大模型可以实现对图片视频的理解,以及内容的产出。电商媒体和营销领域会率先应用多模态大模型,并且在根据用户画像生成个性化多模态内容方面,有较大的发展潜力。

 

从更具想象力的角度来看,未来3~5年内,聚身智能和自动驾驶将是两大值得期待的应用领域。机器人发展需要融合视觉、语言、文字和语音等多种模态。与过去单模态或浅层融合相比,深层次的多模态大模型融合,将使机器人能更好地模仿人类行为,依据人类指令自主运行。因此,具身智能和自动驾驶可能会出现爆发式的应用,是值得关注的未来方向。

 

现在,文本和图片的技术已接近商用水平。因此,在未来一年内,文本图片生成、理解以及图文交流应用将迅速增多。未来1~2年内,我们应关注视频生成和3D生成技术。因为与文本图片生成相比,视频和3D生成在持续性和维度上都有所不同。未来在AI视频理解方面可能出现重大突破。

 

谨代表与会者问一个问题:产业内人士预计,在未来半年到一年内,哪方向可能有较大的技术突破?

 

未来相关领域应密切关注视频和3D生成技术。视频理解和三维内容生成可能将会是下一个技术突破点。视频可视为一帧图片,而3D生成,则是图片在空间维度的升级。因此,视频和3D技术是未来值得投资关注的重点。

 

如果暂时没有更多提问,我们可以先结束今天的互动。今天我们讨论了大模型的进展逻辑和商业化展望,以及多模态应用和国内外的差距。如果各位投资人对我们今天讨论的有兴趣,欢迎与我们团队联系,共同探讨。观察到的商业投资机会显示,从文字到图像,从图像到视频和3D,应用和大模型的演绎路径越来越清晰。

 

短期内,我们会跟踪一些头部公司的进展情况,以及相关的A股投资机会。长期来看,我们对国内市场保持乐观态度。


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
华维设计
S
设计总院
S
外服控股
工分
19.34
转发
收藏
投诉
复制链接
分享到微信
有用 9
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(5)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往