英伟达公司于本周宣布推出一款名为 Neuralangelo 的 AI 模型,该模型能够将视频片段转化为细节层次丰富、具备贴图的 3D 模型。
IT之家查询得知,此前也已经有数个基于视频内容生成 3D 模型的 AI,但这些 AI 往往在面对低对比度视频时便无法着手。而英伟达的 Neuralangelo 模型采用了即时神经绘图(instant neural graphics primitives),并利用了自家的 Instant NeRF 技术,因此即使是对于低对比度的视频,也可以从中捕捉到微妙的细节,并转换为更具备商业价值的 3D 模型。
英伟达强调,Neuralangelo 的独到之处主要表现在其“准确性”与“普适性”:
“准确性”即该模型可以准确呈现复杂材料的质地,例如屋顶瓦片、玻璃窗格和光滑的大理石;
“普适性”即创作者们能够简单使用智能手机拍摄的影片素材,即可创作出逼真的物件,并将其整合到他们的项目中。
Neuralangelo 模型利用从不同角度拍摄的物品的视频作为输入素材,来生成创作者们所需要的模型。一旦 Neuralangelo 确定了视频中相机的运动规律,它就会生成模型的 3D 轮廓,并开始在上面雕刻出细节。
预计英伟达将在 6 月 18 日至 22 日举行的电脑视觉与样式辨识(Computer Vision and Pattern Recognition,CVPR)大会上发布 Neuralangelo 模型。在内部演示中,英伟达展示了 Neuralangelo 模型重建的米开朗基罗著名雕刻作品《大卫》、英伟达位于湾区的办公室、及平板拖车等日常见到的物品的 3D 还原模型。
除了 Neuralangelo,英伟达还将在大会上展示一款名为 DiffCollage 的模型。DiffCollage 是一种能够通过文字提示词生成视频的 AI 模型,可以生成 360 度全景图像与循环动态图像,并再将这些图像扩展为具体的视频。
英伟达研究部高级主任、论文作者 Ming-Yu Liu 对这项研究的意义给出了畅想:
Neuralangelo 提供的 3D 重建能力将给创作者带来巨大好处,帮助他们在数字世界中重建真实世界。这个工具最终将使开发人员能够将精细的物体 —— 不论是小型雕像,还是大型建筑 —— 导入视频游戏或工业数字孪生的虚拟环境中。
创意信息:大数据与人工智能方面,公司将持续加大研发投入,积极整合生态链资源,重点围绕数字连接、数字赋能和数字创新三大核心平台,采用自研和合作方式开展裸眼3D可视化、流媒体实时3D渲染能力云端化、数字孪生模拟系统、模型服务安全。
凡拓数创:公司以“AI+3D”为技术发展方向、围绕3D可视化技术与数字多媒体集成技术等核心技术,加强对数字孪生技术及自研FT-E数字孪生渲染引擎的建设,紧抓数字创意产品的研发,目前公司在工业制造、市政等领域均有相关应用。
会畅通讯:在人工智能领域,公司已有针对垂直行业客户的小模型,同时在AIGC 3D图形引擎、3D智能渲染、3D数据资产等方面有生态投资和布局。