初创企业 Bria 推出了一个开放式视觉生成式 AI 平台来解决这一问题。该平台在重视模型透明度的同时,也强调了公平归属和版权保护。目前,这家公司提供的模型可将文本提示转换为图像或转换现有的图像,今年还将增加文本转视频和图像转视频的 AI。
Bria 联合创始人兼首席执行官 Yair Adato 表示:“创建生成式 AI 模型需要时间和专业知识。我们已经完成了这项工作中最繁重的部分,因此,产品团队可以采用我们的模型来获得技术优势,并且无需投入大量资源就能够快速进入市场。”
广告公司和零售商可以使用 Bria 的工具快速为营销活动生成视觉效果图。创意工作室可以利用这些模型开发图片库或编辑视觉效果。目前,已经有数十家企业客户集成了这家初创企业的预训练模型,或使用了其应用编程接口。
Bria 利用了 NVIDIA NeMo 框架来开发模型,该框架可在 NVIDIA 加速软件中心 NGC 上获得。借助在 NVIDIA Tensor Core GPU 上训练的 NeMo Multimodal 集合中的参考实现,该公司实现了高吞吐量、低延迟的图像生成,并且采用 NVIDIA Picasso 这一视觉生成式 AI 模型代工服务来运行推理。
Bria 研发副总裁 Misha Feinstein 表示:“我们一直在寻找一种能够高效训练模型的框架。该框架必须能够最大程度地降低计算成本,同时又能够扩展 AI 训练的规模,以便更快达到模型收敛状态。借助 NeMo 的优化技术,我们得以在训练和推理过程中最大程度地发挥 GPU 的性能。”
成立于 2020 年的 Bria 为采用视觉生成式 AI 的企业提供了灵活的选择。采用 Bria 平台的客户可以通过大规模创建视觉内容来获得竞争优势,同时保留对数据和技术的控制权。开发人员可以通过 API 访问其预训练模型,也可以直接授权使用源代码和模型权重对其模型进行进一步微调。
Adato 表示:“我们希望建立一家尊重隐私、内容所有权、数据所有权和版权的公司。致力于让行业能够健康、可持续地发展,个人的持续创作和创新必须得到鼓励。”
Adato 认为 Bria 的归属计划就如同是按照歌曲播放次数向艺术家支付费用的音乐流媒体服务。所有使用 Bria 模型的客户都必须遵守该计划,即使他们对模型进行了进一步的训练和微调也不例外。
使用授权数据集还有其他好处,比如 Bria 团队无需花时间清理数据或整理不恰当的内容和错误信息等。
Bria 的文本转图像模型分为两个版本。一个经过延迟优化的版本可快速完成图像背景生成等任务,另一个版本可提供更高的图像分辨率。另外,Bria 还提供具有超分辨率、对象移除、对象生成、图像修复和外部绘制等功能的基础模型。
Bria 正在使用 NVIDIA Triton 推理服务器软件和 NVIDIA TensorRT 软件开发套件加快推理速度,致力于不断提高生成图像的分辨率、进一步降低延迟,并为电子商务和库存图片等行业开发领域专属模型。
Feinstein 表示:“我们的业务运行在各种 NVIDIA 框架、硬件和软件上。为了满足需求,NVIDIA 专家帮助我们优化了这些工具。如果没有他们的帮助,运行速度可能会慢得多。”
为了跟上最新硬件和网络基础设施的发展,Bria 使用了诸如适用于 AI 训练的 NVIDIA Tensor Core GPU、适用于推理的各种 NVIDIA Tensor Core GPU 等云计算资源。
Bria 是 NVIDIA 初创加速计划会员,该计划为初创企业提供技术支持和 AI 平台指导。
如要训练经过优化的文本-图像模型,请查看 NeMo Multimodal 用户指南:
https://docs.nvidia.com/nemo-framework/user-guide/latest/multimodalmodels/index.html
GitHub 资源库:
https://github.com/NVIDIA/NeMo/tree/main/examples/multimodal
NeMo Multimodal 还可在 NGC 上的 NeMo 容器中获得:
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/nemo