3月初微软高管曾在GPT-4 推出前,透露GPT-4 为包含视频的多模态模型,但在GPT-4 上线后并没有生成视频功能,只有读取图片的能力。笔者猜测应该是微软GPT已经具备生成视频的技术,但尚不成熟,估计未来GPT-5 的最大亮点之一应该是AI视频功能。
昨晚,腾讯在AI视频方面抢先微软一步,正式发布全新的AI智能创作助手“腾讯智影”,推出了智影数字人、文本配音、文章转视频等AI创作工具。其中,智影数字人能实现“形象克隆”和“声音克隆”,创作者通过上传少量图片、视频和音频素材,就能得到自己的数字人分身和定制音色,进而快速生成自己的数字人播报视频。
其实关于AI视频技术,国内相关研究技术已经相对成熟,阿里达摩院已在AI模型社区“魔搭”ModelScope上线了“文本生成视频大模型”。根据介绍,整体模型参数约17亿,扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。“魔搭”是阿里达摩院联手CCF开源发展委员会在2022云栖大会推出的AI模型社区,首批开源模型超过300个,包括视觉、语音、自然语言处理、多模态等AI主要方向。
随着腾讯在AI视频技术应用端的落地,未来GPT-5的多模态模型也必定包括AI视频功能,现在gpt 4只是人和对话框交流,只是实现了“人工智能”中的“智能”,“人”的因素尚未体现,未来可以通过与数字人面对面谈话交流的方式实现,AI视频陆续会有新消息刺激,未来AI视频将成新风口。
笔者梳理了相关核心概念股,供各位老师参考,具体如下:
当虹科技:公司为视频编解码核心领军,视频压缩技术极大地降低带宽成本和存储成本。公司提供低延迟高密度视频编码、传输、终端适配方面的技术,拥有较为完整的VR编码解决方案,在AR、XR、裸眼3D、全息技术也有相应技术储备。在VR方面,重点提供FOV编码、传输、终端渲染等方面的技术。
网达软件:公司位于大视频领域,主要业务是AI技术在视频图像领域的应用,依托上亿级端到端系统的建设优势,面向运营商、媒体、金融等主要行业提供软件定制开发、媒体运营为主的技术开发服务。公司能够提供声纹声波驱动数字人面部表情与嘴型的算法,可以很好地解决传统数字人模拟真人说话嘴型所需数据库庞大繁冗的问题,适配人类多种语言和方言;同时 NLP言知系统通过对于不同领域知识的积累与自我学习算法,让数字人逐渐累积各种行业的知识体系。目前,已经为多家商业银行、专业院校、地方政府、商业中心提供标准数字人产品。
魅视科技:公司自主研发的ASE计算机屏幕编码技术,实现了低带宽下视频(尤其是计算机视频)端到端无损画质的快速传输,是业内少有的同时实现低码率和高画质的图像应用技术。基于此技术,公司产品的芯片选择面广,得以引入具有强劲CPU处理能力和NPU处理能力的处理器,从而实现大范围信息资源整合。
数码视讯:公司通过AI技术对视频内容分辨率进行智能提高,自动生产获取高于成像系统分辨率的图像,利用AI算法AIGC自动生产高清、超高清视频内容。
以上四个票中,从技术实力和位置来看,网达软件的性价比更好一些,具备技术硬实力,并且位置相对偏低。
这里主要说说网达软件。
网达软件的主要业务就是AI技术在视频图像领域的应用,在智能视频云平台技术,能提供支撑百万路级视频流汇聚的软件系统,基于AI视频分析,搭建算法超市,汇聚八十多种分析算法,研发了企业数字化中台软件产品,实现了视频汇聚、物联汇聚、AI分析、数据统计等功能。
目前微软的ChatGPT人工智能大数据背后是微软在非洲肯尼亚投入大量人力去做人工数据标注工作,网达软件在Ai视频方面已经实现了自动打点标注,减少人工标注的工作量,实现了智能场景分析,智能抽图截图,智能实现情节分段,实现了技术领域突破。
华为合作方面:网达的分布式文件转码软件等获得了华为云鲲鹏云服务及国产操作系统统信UOS的兼容认证,公司与华为共同开发了VR试听音乐生态平台。同时,网达两年前与华为签订了AI视频领域的合作协议(用于盘古大模型),但有保密条款,不便公布具体内容。
阿里合作方面:公司获得“阿里云”云市场服务商认证,并入围阿里供应商名单,与阿里在融媒体领域深度合作。
百度合作方面:公司去年中标了百度希壤元宇宙项目,是百度的供应商。今年3月21日,百度智能云智慧城市副总经理陈静等一行到访网达软件参观交流。交流会上,网达和百度达成共识,将以智慧文旅、智慧应急、智慧公安、文心一言四个领域为切入点增进合作,共同助力城市智能建设,推动产业智能化转型。
百度的副总经理亲自上门拜访交流,一定程度的也说明了网达软件在AI视频领域已经具备行业领先的技术实力!
网达软件在AI视频领域的技术硬实力不逊于当虹科技,对标当虹科技的位置,网达软件具有很大的补涨空间,值得关注。