登录注册
3D行业专题研究报告:AI的下一个涌现
戈壁淘金
只买龙头的老司机
2023-11-01 13:49:52

方正证券

一、文生2D复盘:“千万级数据和亿级数据”是关键
2D模型数据量变大,涌现能力出现

涌现能力的定义:在小模型中没有表现出来,但是在大模型中变现出来的能力。涌现能力大概可以分为两种: 通过提示就可以激发的涌现能力和使用经过特殊设计的prompt激发出的新的能力。无论哪种涌现能力,当模 型规模超过一个临界值时,效果会马上提升。 以LeNet和AE为例,涌现能力在CV计算机视觉任务中也有所体现。 LeNet是由Yann Lecun(2018年图灵奖得主 创造,其在手写体字符识别领域创造性引入卷积神经网络,是CNN的发展起点,通过观察LeNet在MNIST 21上 训练的结果,随着模型参数的增加,测试精度显示出不可预测的大幅增长;而在CIFAR100图像数据集上训练 的自编码器(AE)随着模型参数的增加显示陡峭的均方重建误差变化。

扩散模型领先于GAN、自回归模型

扩散模型(diffusion models)成为2D生成模型中主流模型,逐渐领先于GAN、自回归模型,显著提高了 图像生成的稳定性、准确性和多样性。并且扩散模型在诸多应用领域都有出色的表现,如计算机视觉,NLP、 波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。

ImageNet:首个千万级别2D数据集,借助众包平台完成

ImageNet数据集09年发布,目前包含约1500万张标注图像。ImageNet数据集由斯坦福大学教授李飞飞牵头从 2007年开始收集建立。2009年发布时包含有320万张图像,是当时最大的2D图像数据集。经过发展,ImageNet 数据集已拥有22000类约1500万张标注图像。 ImageNet来源于网络图像,借助众包平台(Mechanical Turk)完成。数据集的大量图像数据来自于日益增长 的网络平台,考虑到手动标注工作的大量人力需求,研究团队借助于Mechanical Turk(亚马逊开发的众包平 台)完成这项工作。

多个重量级算法诞生于ImageNet数据集

基于ImageNet的比赛ILSVRC每年举办一次,从2010年开始举行,2017年后的比赛由Kaggle社区主持。比赛逐渐 成为全球大型赛事,2016年有172个作品参赛。短短7年内,分类领域的错误率就从0.28降到了0.03。 以扩散模型为基准,ILSVRC冠军算法中AlexNet(12年)、GoogleNet(14年)、ResNet(15年)、SENet(17 年)等算法均超过扩散模型的影响力(以年均被引用量表示算法影响力)。比赛的历年优胜者中,诞生了基于 ImageNet训练的AlexNet、VGG(2014年定位比赛冠军)、GoogleNet等经典的深度学习网络模型。冠军算法历年 的测试错误率在6年间从15%下降到2%,极大地推动了计算机视觉领域的发展。

LAION:破亿数据集出现,模型落地离不开亿级数据

LAION(拥有全球成员的非营利组织)在2021年公布的LAION-400M是当时最大的公开图文数据集,22年10月发 布的LAION-5B是上一版本的14倍。网络爬虫带来数亿级别公有数据集。LAION的收集使用加州非营利组织 Common Crawl收集到的代码来定位网络上的图片,并将它们与描述性文本关联起来,对人工的依赖性很小。 上亿数据集成为图像训练模型成熟应用的必要条件。LAION的数据集已经被用于文生图的生成器,包括谷歌 Imagen和Stable Diffusion。同时,其他已落地图像生成应用的国内外公司均是在上亿级别的2D图像数据集进 行模型训练取得满意效果。

二、3D研究框架:已破千万级数据集,OpenUSD加速数据集扩张
3D发展研究框架

OpenUSD统一数据表现形式和文件格式,提供3D发展加速度。3D数据集数据记录形式多样,包含点云、体素等, 以往模型往往针对不同形式有不同的算法;同时,3D数据文件格式多样,跨文件转化不易,也提高了数据集收 集门槛,限制了3D数据集的发展。而OpenUSD的推进有望解决以上问题,进一步解决数据集规模问题。 更大数据集和更好模型相互促进发展。基于更大3D数据集进行的训练能够得到更好的3D生成质量。生成结果经 过简单处理可以大减少人工建模时间和步骤,从而进一步扩大3D数据集,至此3D生成领域良性循环发展。

3D模型表示方式多样,隐式表示越来越受重视

主要数据表示方式:隐式表示,其中INRs(隐式神经表示)被用于3D主流模型NeRF中,受到学界重视。3D数据 的世界没有一致性,目前已有的3D数据集表示方法包括点云、网络、体素、多视角图片等,不同的表示采用的训 练路径也大不相同。 隐式表示解决了显式表示造成重叠、消耗内存等缺点,适用于大分辨率场景,INRs甚至可以生成照片级的虚拟 视角。NeRF模型首次利用隐式表示实现了照片级的视角合成效果,也将隐式表示推向新的高度。

通用格式解决模型互导问题,USD简化3D文件访问

3D文件格式多样,适用领域不同,模型互导问题通过通用文件格式解决。3D创建需要各种工具和平台的搭配利 用,其他应用程序无法编辑甚至读取,带来了模型互导的问题,导致3D文件格式众多,种类有数十种。多软件 之间对同一模型进行编辑操作时先将模型文件另存为通用格式,再导入到其它软件。 USD作为一种通用软件,支持移动端等途径的便携访问和读写。许多传统3D模型为本地客户端设计,需要极高 的硬件配置才能正常浏览,存储占用较大且文件打开速度慢。而对于.usd/.usdz文件格式,用户可像浏览普通 照片或者文本一样在桌面端、Web端、移动端、AR/VR等终端正常浏览。

USD统一3D表示标准,OpenUSD联盟降低USD使用门槛

USD承担互联网3D时代的HTML角色。23年8月8日SIGGRAPH大会上,NVIDIA创始人黄仁勋表示:“正如 HTML点 燃了2D互联网的重大计算革命,OpenUSD也将开启协作式3D和工业数字化的时代。” AOUSD不断降低USD文件学习和使用门槛,推动USD成为3D标准。USD是由皮克斯公司(Pixar)开发的开源格式, 可以在不同的工具间进行内容创作和交换,但学习曲线陡。针对这一问题,致力于推动USD文件格式发展的 OpenUSD联盟(AOUSD,由皮克斯、Adobe、苹果、Autodesk和英伟达与Linux基金会下属组成)开展了一系列 有效举措,如NVIDIA Omniverse™ 平台,来降低用户的使用阻力。

首个千万级数据集出现,3D发展来到2D的“2020-2021年”

2023年7月11日发布的Objaverse-XL数据集包含1020万3D资产,对比于Objaverse1.0版本增加一个量级。 bjaverse-XL通过对互联网上3D对象的类源进行爬虫获取,实例涵盖生活、虚拟多样化场景,最终获得了1020 万已渲染的高质量3D文件数据。 类比于2D生成发展路径,3D生成出现了具有统治地位的NeRF模型和千万级数据集Objaverse-XL,3D发展来到 2D的“2020-2021年”。可以预见当未来数据集成长到亿级,3D生成也将迎来爆发。

数据集越大,新视角图片更优,3D生成效果更好

对已有算法PixelNeRF(NeRF的一种改进方法)和Zero123(一种文生图模型)进行训练,发现通过基于更多 数据进行训练,3D质量有显著的改进。 PixelNeRF随着数据集量级变大,图像质量评估指标PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,数值 越大表明失真越少)变大,表明新生成的视角图像质量越好,有利于提高后续三维重建质量;对使用 Objaverse-XL(1000万量级数据)、Objaverse(800万量级数据)训练得到的Zero123-XL和Zero123比较,发 现生成的3D资产侧面、背面的完成度有显著的提升。

3D资产建模流程长,免费实例不足

原有3D建模流程长,具有资产属性。3D资产在游戏、动画公司等均属于资产,目前大多数实例由Blender和 Maya3D等建模软件手工设计,人工建模涉及环节多,主要流程有:寻找实例-粗略布局-细节说明-纹理-渲染检查,且建模过程需要大量时间和专业知识。 3D资产昂贵,免费实例不足。公开的免费实例较少,成为阻碍3D数据集扩展的主要原因。在号称世界上最大 的3D内容库平台Sketchfab上,3D模型每个价格从$3-$500不等。

3D生成质量变好,模型产物补充3D数据集内容

3D模型训练效果依赖于3D数据集,但目前的数据集量级无法激发出模型的涌现能力,对生成的AI+3D资产进 行人工进一步优化所需要的时间和人力成本依然巨大。 目前数据集仍然是3D生成领域发展的重中之重。更大规模的数据集一旦能够出现,AI+3D模型的质量会随之变 好,因此,模型生成的3D资产在经过简单的加工之后即可补充到3D数据集中,良性循环由此开启。

三、文生3D的方向-扩散模型+NeRF
3D生成产业方向-文生3D是最终需求

目前存在4类3D生成路径,实现难度从易到难。文生3D是终极需求,将3D资产从“专业的”变成“大众的” 。 在生成质量、速度、落地程度方面,扫描得3D、视频生3D已经较为成熟,但主要受限于机器的可达性差,没 能获得广泛关注;图生3D在特定场景下正逐步落地。相比于前三种方法,文生3D可以直接生成文字描述的场 景,甚至现实中不存在的事物,对于没有专业知识的普通人更加友好,且不需要提前准备扫描仪等额外设备。

扫描得3D:成熟落地,手机即可实现

3D扫描技术结合数字三维重建等技术手段,利用三维扫描设备,可以对自然或人工合成物体进行建模,重建 真实物体的三维模型,目前已广泛运用于建筑保护、CT扫描、AR/VR等领域。 随着时间的发展,扫描仪的可得性、便携性逐渐增强。2015年安德鲁·塔隆团队就为巴黎圣母院大教堂完成 精度5mm的激光扫描和三维建模,越来越多的扫描工作让古物永久保存。2020年iPad Pro出现用于3D扫描和增 强现实的深度传感器(LIDAR),配合应用程序3D Scanner Pro可以进行3D扫描。iOS 12的Quicklook功能更是 可以用USDZ格式将3D模型分享给其他人。苹果RealityScan依靠手机的摄像头就可以实现扫描建模,iOS端和安 卓版本均已发布。

视频生3D:成熟落地,具备动态实时建模能力

视频生成3D的技术已有落地产品,对于设备的要求越来越低,目前已经可以做到动态实时建模。无需激光 雷达或捕捉设备,现在只需要一部手机或者一段视频,即可进行三维场景重建。 22年开放网页版的Luma应用,以NeRF为核心,仅仅通过iPhone即可通过 AI创建3D;2022年10月,Connect大 会上,扎克伯格技术演示中展示了Codec Avatars 2.0的最新进展,Instant Codec Avatars只需用智能手机 从不同角度扫描人脸再进行各种表情的扫描,数小时可生成精细的虚拟化身;CYAN.AI平台以CNN(卷积神经 网络)和DNN(深度神经网络)为核心,从2D视频中提取人体运动的关键特征进行身体姿势识别,生成的3D 成果还可以与Unity集成。

图生3D:距离真正商用还有一定距离

相比于扫描,图生3D只需要数十张甚至数张真实场景图片即可完成建模。从目前阶段来看,图生3D模型的 发展还处于实验室阶段,距离真正商用还有一定的距离。3D生成技术中的NeRF模型的本质就是图生3D。输 入是一组二维图像和相应的摄像机参数(包括相机位置和方向),输出是表示三维场景中每个点的颜色和密 度的函数。 科技公司在不断尝试研发对应的工具。已有的应用公司包括付费应用Kaedim,用户最少仅需上传一张照片, Kaedim3D即可识别出图中物体的3D形态,并用可导入几乎所有主流软件的格式输出给用户;另外,免费3D模 型生成工具PIFuHD可以配合其他2D图像生成软件生成3D模型,但模型并不能直接导入虚幻引擎或者研发引擎 当作游戏角色或者NPC。

文生3D:学界以科技巨头紧密发力领域

应用端能够支持文生3D的平台很少(如3dfy.ai、Tafi、Masterpiece Studio平台),具有时间长,复杂模 型精度低等问题,仍未达到运用于产业生产环节的标准。 2023年6月,Tafi发布文生3D引擎,受限于数据集,其生成内容主要是3D人型角色。领先的3D内容和软件提供 商Tafi利用专业美术师支持的原创角色平台“Genesis”庞大的3D数据集,宣布可以从文本创建3D角色,可生 成数十亿个3D角色变体。生成的结果可导出到各种 DCC 工具,将高质量角色输出到流行的游戏引擎和 3D 软 件应用程序,例如 Unreal、Unity、Blender、Maya、Maxon Cinema 4D等,但受限于训练数据来自3D角色资 产,Tafi的生成内容主要集中于人型角色。

四、文生3D成本测算:迭代次数万级以上
2D生成需迭代约20-50次

以2D为例,迭代次数越多,生成质量越高,对象越复杂。一般情况下,2D场景迭代20-50次左右即可实现要 求。根据我们实机测试,利用RTX 3090显卡,在Stable Diffusion中,同一指令来生成的3组2D图片发现: 2D模型的迭代速度约为每秒2.1次-4.1次迭代,且速度边际提升。

3D资产算力-生成时间约3-4小时/个

采用3D模型Zero123,单场景3D资产生成需要迭代30000次左右,在RTX 3090显卡(24GB)上运行约3.3-4.2小时。 根据我们实机测试的结果,在Zero123算法下,设定迭代30000次时生成的3D成品相对可行。文生图模型的过程首 先经过文生图片过程(时间几乎可以不计),再通过生成的新视角图片利用NeRF模型生成3D资产。利用3090显卡 (24GB)且显存使用率约50%(即12GB左右)时运行文生3D模型,对处理过的单场景图片,根据测算,每秒迭代次 数约2.35次。总优化时间(小时)=迭代次数/每秒迭代次数/60seconds/60minutes。对于需要迭代30000次的单场 景来说,生成一个3D模型需要3.3-4.2小时。

3D资产算力-生成成本约5元/个

使用RTX 3090显卡在Zero123模型下迭代30000次,生成一个3D资产的算力成本约5元左右。若在RTX 3090上运行 文生图3D模型Zero123,按照RTX 3090显卡每小时1.39元租金计算,若每秒迭代2.25次,需要迭代30000次,则3D 资产算力成本=5.15元(30000次/2.25次/s/60min/60sec*1.39元/hour)。未来随着模型的发展成熟,假设迭代 速度变快到当前常规水平的2倍,在3090显卡生成一个3D资产算力花费约2.6元左右。 文生3D资产算力成本远远低于市场3D资产购买价格,具有价格优势。在3D模型的在线内容库sketchfab上,即使 简单难度的3D资产所需要的时间在2-15小时左右,购买费用在3-40美元区间,远远大于AI+3D生成成本。

























作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
联建光电
S
银邦股份
S
森远股份
S
金太阳
工分
12.92
转发
收藏
投诉
复制链接
分享到微信
有用 16
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(6)
只看楼主
热度排序
最新发布
最新互动
  • Bubbles-
    自学成才的老司机
    只看TA
    2023-11-01 17:14
    银邦股份 硬邦邦
    2
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-11-02 08:18
    辛苦了,感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-11-01 18:56
    原来联建是炒这个
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-11-01 16:00
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 加油奥利给
    下海干活的韭菜种子
    只看TA
    2023-11-01 13:59
    0
    0
    打赏
    回复
    投诉
  • 1
前往