上海信弘智能科技有限公司,信弘,智能,信弘智能科技,Elite Partner,Omniverse,智能科技,NVIDIA GPU,NVIDIA DGX, vGPU,TESLA,QUADRO,AI,AI培训,AI课程,人工智能,解决方案,DLI,Mellanox,IB, 深度学习,RTX,IT,ORACLE 数据库,ORACLE云服务,深度学习学院,bigdata,大数据,数据安全备份,鼎甲,高性能计算, 虚拟机,虚拟桌面,虚拟软件,硬件,软件,加速计算,HPC,超算,服务器,虚拟服务器,IT咨询,IT系统规划,应用实施,系统集成

ZENTEK 新闻

数据流处理


数据流处理是对接收到的新数据事件进行连续处理。


什么是流处理?


数据流是一连串从生产者到消费者的无限制事件。很多数据都是以事件流的形式产生的,例如金融交易、传感器测量或网络服务器日志。




流处理库(如 Streamz )有助于建立管理连续数据流的管道,使应用程序能够在事件发生时做出响应。



流处理管道通常涉及多种操作,如过滤器、聚合、计数、分析、转换、丰富、分支、连接、流量控制、反馈到早期阶段、反向压力和存储。


为什么要进行数据流处理?


数据流的连续处理在许多应用中都非常有用,例如

  • 医疗保健:持续监测仪器数据

  • 智能城市:交通模式和拥堵管理

  • 制造业:优化和预测性维护

  • 交通运输:优化路线和燃料消耗

  • 汽车:智能汽车

  • 网络安全、异常检测:网络或网络日志处理

  • 金融:股票市场时间序列

  • 机器学习:实时预测

  • 广告:基于位置或动作的广告


随着企业对实时分析、推理、监控等的高度依赖,流处理市场正在经历指数级增长。基于流的服务现已成为日常业务的核心组成部分,结构化遥测事件和非结构化日志的同比增长率超过 5 倍。在现代业务环境中,这种规模的大数据流变得极其复杂,而且难以高效完成,因此可靠、经济高效的流处理至关重要。


利用 GPU 加速数据流处理


NVIDIA RAPIDS cuStreamz 是首个 GPU 加速流数据处理库,其目标是加快流处理吞吐量并降低总体拥有成本(TCO)。英伟达公司的 cuStreamz 生产流水线每年可节省数十万美元。cuStreamz 采用 Python 语言编写,建立在数据科学库的 GPU 加速器 RAPIDS 之上。端到端 GPU 加速正在迅速成为标准,这一点从 Flink 添加 GPU 支持就可以看出,英伟达很高兴能够成为这一趋势的一部分。


cuStreamz 基于

  • Streamz 是一个开源 Python 库,可帮助构建流水线管理连续数据流;

  • Dask ,一个强大可靠的调度程序,用于并行化流式工作负载;

  • RAPIDS ,一个用于流式计算的 GPU 加速库套件。


cuStreamz 通过在引擎盖下利用 RAPIDS cuDF 加速 Streamz,从而利用 GPU 加速对流式数据的计算。cuStreamz 还受益于 cuDF 的 JSON 、Parquet 和 CSV 读写器加速功能。cuStreamz 团队建立了一个加速的 Kafka 数据源连接器,能以极快的速度将数据从 Kafka 直接读取到 cuDF 数据帧中,从而大大提高了端到端的性能。然后,可以使用 Dask 对流水线进行并行化,以分布式模式运行,从而提高大规模性能。



cuStreamz 是连接 Python 流和 GPU 的桥梁,并增加了复杂可靠的流功能,如检查点和状态管理。cuStreamz 提供了必要的构建模块,使编写的流作业能以更低的成本在 GPU 上可靠地运行,并获得更好的性能。



GPU 加速的端到端数据科学


基于 NVIDIA CUDA-X AI 构建的 RAPIDS 开源软件库套件能够完全在 GPU 上执行端到端数据科学和分析流水线。它依赖于 NVIDIA CUDA 基元进行底层计算优化,但通过用户友好的 Python 接口公开 GPU 并行性和高带宽内存速度。



有了 RAPIDS GPU DataFrame,就可以使用类似 Pandas 的接口将数据加载到 GPU 上,然后用于各种连接的机器学习和图分析算法,而无需离开 GPU。这种互操作性水平是通过 Apache Arrow 等库实现的。它可以为端到端流水线(从数据准备到机器学习再到深度学习)提供加速。


RAPIDS 的 cuML 机器学习算法和数学原语遵循熟悉的 scikit-learn-like API 。许多流行的算法,如 XGBoost,都支持单 GPU 和大型数据中心部署。对于大型数据集,这些基于 GPU 的实现可比 CPU 实现快 10-50 倍。


RAPIDS 支持许多流行的数据科学库之间的设备内存共享。这样就能将数据保留在 GPU 上,避免了来回拷贝到主机内存的高昂成本。