NVIDIA 公司的研究人员为其最新的文本到 3D 生成人工智能模型(LATTE3D)注入了双倍加速。
LATTE3D 就像一台虚拟 3D 打印机,能在一秒钟内将文字提示转化为物体和动物的 3D 呈现。
生成的形状采用标准渲染应用中常用的格式,可以轻松地在虚拟环境中提供,用于开发视频游戏、广告宣传、设计项目或机器人虚拟训练场。
“ NVIDIA 公司人工智能研究副总裁萨尼娅-菲德勒(Sanja Fidler)说:"一年前,人工智能模型生成这种质量的三维视觉效果需要一个小时,而现在的技术水平大约是10到12秒。"我们现在能以更快的速度生成结果,让各行各业的创作者都能实现近乎实时的文本到 3D 的生成。
这一进步意味着 LATTE3D 在单个GPU上运行推理时,几乎可以立即生成 3D 图形。
构思、生成、迭代: 缩短周期
创作者不需要从头开始设计,也不需要翻阅三维资产库,而是可以使用 LATTE3D 在脑海中闪现想法时快速生成详细的对象。
该模型可根据每个文本提示生成几个不同的三维形状选项,为创作者提供选择。所选对象可在几分钟内进行优化,以提高质量。然后,用户可以将形状导出到图形软件应用程序或英伟达 Omniverse 等平台中,从而实现基于通用场景描述 (OpenUSD) 的三维工作流程和应用。
虽然研究人员在动物和日常物体这两个特定数据集上对 LATTE3D 进行了训练,但开发人员可以使用相同的模型架构在其他数据类型上对人工智能进行训练。
例如,如果在三维植物数据集上进行训练,LATTE3D 的一个版本就能帮助景观设计师在与客户进行头脑风暴时,快速用树木、花丛和多肉植物填充花园效果图。如果对家居物品进行训练,该模型就能生成物品,填充到三维模拟家居中,开发人员可以用它来训练个人助理机器人,然后再在现实世界中进行测试和部署。
LATTE3D 使用英伟达 GPU 进行训练。除了三维形状外,该模型还在使用 ChatGPT 生成的各种文本提示上进行了训练,以提高模型处理用户为描述特定三维物体而可能想出的各种短语的能力,例如,理解以各种犬科动物为特征的提示都应生成类似狗的形状。