在生成式 AI 时代,机器不仅要从数据中学习,还要生成类似人类一样的文本、图像、视频等。检索增强生成(RAG)则是可以实现的一种突破性方法。
RAG 工作流程基于大语言模型(LLM)而构建,这些 LLM 可以理解查询并生成响应。但是,LLM 存在局限性,包括训练的复杂性和缺乏当前(有时是专有)信息。此外,当未根据特定数据进行训练就回答提示词时,它们往往会产生幻觉并合成事实错误的信息。RAG 通过向 LLM 提供企业特定信息来增强查询,从而帮助克服这些限制。
数据中心作为新的计算单元,随着网络服务对 CPU 压力的增加,现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性的框架,并配备加速器和卸载功能,这些是充分发挥 AI 技术潜力和推动创新的关键。
在本文中,我们讨论了 RAG 如何助力企业为各种企业用例创建高质量、相关且引人入胜的内容。我们深入探讨了通过扩展 RAG 来处理大量数据和用户所面临的技术挑战,以及如何使用由 NVIDIA GPU 计算、加速以太网网络、网络存储和 AI 软件提供支持的可扩展架构来应对这些挑战。
RAG 使企业能够充分利用数据
典型的 RAG 工作流程使用向量数据库,向量数据库是一类专为执行相似性搜索而定制的数据管理系统,用于存储和检索与查询相关的企业特定信息。
通过将 RAG 集成到其信息系统中,企业可以利用大量内部和外部数据来生成具有洞察力的全新上下文相关内容。这种融合是一次重大飞跃,使企业能够利用其数据和领域专业知识,为个性化客户互动开辟新途径,简化内容的创建,并提高知识用例的效率。
然而,在企业规模部署 RAG 也面临着一系列挑战,包括管理数百个数据集和数千名用户的复杂性。这就需要一种分布式架构,其能够满足有效应对此类大规模操作的处理和存储需求。
要扩展此架构,您必须嵌入、向量化和索引数百万个文档、图像、音频文件和视频,同时还适应每天新创建内容的嵌入。
另一个挑战是确保交互式多模态应用程序的低延迟响应。由于需要集成数据企业应用程序以及结构化和非结构化数据存储,因此需要实时处理和响应,而在大规模实现方面可能具有挑战。
生成式 AI 的数据索引和存储也构成了挑战。
虽然传统企业应用程序可以压缩数据并将其存储来进行高效检索,从而支持索引和语义搜索,但是基于 RAG 的数据库可以扩展到比原始文本文档及其相关元数据大 10 倍以上。这将导致在数据增长和存储方面的重大挑战。
为了获得最佳结果,企业必须投资加速计算、网络和存储基础设施,这对于处理训练和部署 RAG 模型所需的大量数据至关重要。
如何实现可扩展且高效的 RAG 推理
在 GTC 2024 上,NVIDIA 推出了一系列生成式 AI 微服务,为开发者提供用于创建和部署自定义 AI 应用程序的企业级构建块。
企业可以使用这些微服务作为创建 RAG 驱动的应用程序的基础。通过将其与 NVIDIA RAG 工作流程示例相结合,您可以加快生成式 AI 应用程序的构建和产品化过程。
在本文中,我们使用多节点 GPU 计算推理、加速以太网网络和网络连接存储对这些 RAG 工作流程示例进行基准测试。我们的测试结果表明,高性能网络和网络连接存储可实现高效且可扩展的生成式 AI 推理,使企业能够开发由 RAG 驱动的应用程序,在促进连续数据处理的同时,还可扩展到数千个用户。
图 1 显示了包含两个阶段和数据流水线的 RAG 工作流程。
图 1.RAG 工作流程
在第一阶段,数据提取将文档和其他数据模式转换为数字嵌入,然后在向量数据库中对其进行索引。此过程支持基于相似度分数来有效检索相关文档。
查询阶段从用户输入问题时开始,该问题也会被转换为嵌入并用于在向量数据库中搜索相关内容。检索相关内容后,会将其传递给 LLM 进行进一步处理。原始输入问题以及增强上下文会提供给 LLM,LLM 会针对用户的查询生成更精确的答案。
此工作流程可以有效地检索和生成信息,使其成为适用于各种企业应用程序的强大工具。
加速以太网网络、网络连接存储
在数据提取方面表现出色
我们最初测试了基于单个 GPU 节点的数据提取流水线。图 2 显示了使用一台具有 8 个 A100 GPU 的 DGX 系统和一个专为对象存储工作负载而设计的网络连接全闪存存储平台来进行测试设置。
图 2.具有网络连接存储的单节点 NeMo Retriever 微服务
DGX 系统通过 NVIDIA ConnectX-7 网卡连接到网络,并使用了加速的 NVMe-over-Fabrics(NVMe – oF)和 Amazon S3 对象存储协议及两台 NVIDIA Spectrum SN3700 交换机。
使用 NeMo Retriever 微服务,我们比较了 PDF 文档(包括文本和图像)的嵌入和索引性能。此次比较涉及 DGX 系统中的直接附加存储(DAS)和网络连接存储。
图 3 显示了单节点上的数据提取基准测试的结果。结果表明,与使用 DAS 相比,使用 Amazon S3 的网络连接存储将数据提取速度提高了 36%,将处理时间缩短了 122 秒。这表明网络连接存储是数据提取的更好选择,同时还依赖于网络速度和延迟。
加速以太网网络对于提供稳健、高性能和安全的连接至关重要。除了增强文档嵌入外,网络连接存储还提供各种企业级数据管理功能。
图 3.单节点数据提取基准测试 (100 万个向量)
然后,我们使用多节点 RAG 设置进行测试,该设置使用通过 NVIDIA BlueField-3 DPU 连接的分布式微服务架构(图 4)。随着多个节点并行运行以上传嵌入、计算索引并插入向量数据库,性能也随之提升。
图 4.具有网络连接存储的多节点 NeMo Retriever 微服务
我们比较了每台服务器中使用直接附加 SSD 与网络连接存储的性能。对于服务器内的 SSD,MinIO 充当对象存储层。对于网络连接存储,我们绕过 MinIO,测试了存储系统自己的原生 Amazon S3 对象接口。
结果表明,多节点比使用单节点提供更快的性能,将处理时间缩短了近 102 秒。这些结果证明了多节点 GPU 加速与企业级网络连接存储相结合的性能优势。
图 5.多节点数据提取基准测试 (100 万个向量)
适用于 RAG 驱动型应用程序
的网络连接存储的优势
网络连接存储可以通过网络访问块、文件和对象,而无需直接将存储介质连接到服务器。
网络连接存储不仅为基于 RAG 的应用程序提供了明显的性能优势,而且还提供了额外的企业优势,使其成为增强自然语言处理的最佳数据平台。
适用于 RAG 工作流程的网络连接存储具有以下优势:
实时流数据提取:网络连接存储支持从各种来源(例如社交媒体、Web、传感器或物联网设备)提取实时流数据。RAG 应用程序可以使用这些数据生成相关的全新内容。DAS 可能无法处理大量且快速的流数据,或者可能需要额外的处理或缓冲来存储数据。
可扩展性:在不影响性能或数据可用性的情况下,可以更容易地通过添加更多磁盘或设备来扩展网络连接存储的容量。相比之下,DAS 的可扩展性有限,可能需要停机或重新配置才能进行存储升级。
元数据标注:网络连接存储支持使用元数据(例如标签、类别、关键字或摘要)对数据进行标注。元数据可以被 RAG 应用程序使用来根据查询或上下文进行检索和排名数据源。DAS 可能不支持数据标注,或需要单独的数据库或索引来存储元数据。
利用率:网络连接存储使多个用户和应用程序能够同时访问相同的数据,从而优化存储资源的利用率,而不会产生重复或冲突。相比之下,DAS 可能会导致存储未充分使用或过度使用的问题,具体取决于特定服务器内的需求和数据分配。
可靠性:网络连接存储通过使用先进的独立磁盘冗余阵列(RAID)功能或其他方法来保护数据免受磁盘故障、网络故障或断电的影响,提高了可靠性和数据可用性。相比之下,DAS 在磁盘或服务器发生故障时,可能会丢失数据或损坏,因为 DAS 并不具备数据保护功能。
删除重复数据:网络存储通过消除文件或设备之间的重复或冗余数据来减少存储空间和网络带宽。DAS 可能会存储相同数据的多个副本,从而浪费存储空间和网络资源。
数据出处的来源引用:网络连接存储可以提供数据的来源引用,例如 URL、作者、日期或许可证。RAG 应用程序可以使用此信息来归因和验证数据源,并确保所生成内容的质量和可信度。DAS 可能不提供数据来源引用,或者可能需要手动或外部方法来跟踪数据来源。
备份:网络连接存储通过使用快照、复制或其他方法在不同位置或设备上创建数据副本来促进数据备份和恢复。DAS 可能需要手动或复杂的备份过程,这可能很耗时或容易出错。
数据保护和保留:网络连接存储通过使用加密、压缩或其他技术来保护数据免遭未经授权的访问或修改,从而确保数据保护和保留。它还使用策略、规则或法规来管理数据生命周期,例如数据的创建、删除或存档。相比之下,DAS 可能不提供数据保护和保留功能,或者可能需要额外的软件或硬件来实现数据安全和治理。
结束语
检索增强型生成通过利用生成式 AI 的强大功能以及企业特定的上下文和信息来增强数据和利用,为企业提供了巨大的潜力。
然而,大规模部署 RAG 会带来诸多挑战,例如管理大型数据集、确保交互式应用程序的低延迟以及满足生成式 AI 的存储需求。
为了克服这些挑战,企业必须扩展其基于 RAG 的生成式 AI 基础设施。为了高效运行,此基础架构必须在整个数据中心堆栈中进行适当的调整和架构设计:加速计算、快速网络、网络连接存储和企业 AI 软件。
生成式 AI 是一个快速增长的新领域。随着 RAG 的不断扩展以支持视频等新模式,数据处理需求持续快速增长。NVIDIA 生成式 AI 微服务与多节点 NVIDIA GPU 计算推理、加速以太网网络和网络连接存储相结合,展示了企业规模 RAG 推理的效率。