现代数据中心的设计、仿真和建立非常复杂,涉及性能、能效和可扩展性等多种考量因素。
由计算和网络设计、计算机辅助设计(CAD)建模以及机械、电气和散热设计方面技术精湛的工程师组成的团队也必不可少。
NVIDIA 打造了先进的 AI 超级计算机,并在 GTC 上推出了新产品——基于 NVIDIA GB200 NVL72 液冷系统的大型集群。
该集群由两个机架组成,每个机架包含 18 个 NVIDIA Grace CPU 和 36 个 NVIDIA Blackwell GPU,并通过第四代 NVIDIA NVLink 交换机连接。
在 GTC 大会期间,NVIDIA 在 Omniverse 中演示了这一全面运营的数据中心的数字孪生,Omniverse 平台可用于连接和构建支持生成式 AI 的 3D 工作流、工具、应用程序和服务。
为了尽快建立新的数据中心,NVIDIA 首先使用 Omniverse 所连接的软件工具构建了数字孪生。
工程师使用由 NVIDIA Omniverse API 提供支持的 Cadence Reality 数字孪生平台,在通用场景描述(OpenUSD)中以全物理精度和照片级的真实感,统一并可视化了多个 CAD 数据集。
提高效率和精度的设计、仿真和优化
新的 GB200 集群正在取代 NVIDIA 传统数据中心的现有集群。
为了开始数字化建设,科技公司 Kinetic Vision 使用 NavVis VLX 可穿戴激光雷达扫描仪扫描了该设施,以生成高精度的点云数据和全景照片。
然后,使用 Prevu3D 软件移除现有集群并将点云转换为 3D 网格。
它提供了该设施的物理精确 3D 模型,可以在其中对新的数字数据中心进行仿真。
工程师使用 Cadence Reality 平台组合并可视化多个 CAD 数据集,提高了精度和逼真度。
该平台与 Omniverse 的集成提供了一个强大的计算平台,使团队能够开发基于 OpenUSD 的 3D 工具、工作流和应用程序。
Omniverse Cloud API 还增加了与更多工具的互操作性,包括 PATCH MANAGER 和 NVIDIA Air。
通过 PATCH MANAGER,团队设计了集群和网络基础设施的物理布局,确保布线长度准确且路由配置正确。
该团队使用 Cadence 的 Reality 数字孪生求解器(由 NVIDIA Modulus API 和 NVIDIA Grace Hopper 加速)对气流以及 Vertiv 和 Schneider Electric 等合作伙伴的新型液冷系统的性能表现进行仿真。
GB200 托盘中的集成冷却系统使用 Ansys 的解决方案进行了仿真和优化,并将仿真数据应用到数字孪生中。
该演示展示了数字孪生如何允许用户在生产实际系统之前对数据中心设计进行全面测试、优化和验证。
通过在数字孪生中将数据中心的性能表现进行可视化,团队可以更好地优化其设计并针对假设场景进行规划。
用户还可以通过以集成方式平衡不同的边界条件(例如布线长度、电源、冷却和空间)来增强数据中心和集群设计,使工程师和设计团队能够以更快的速度、更高的效率和更好的优化让集群投入使用。