上海信弘智能科技有限公司,信弘,智能,信弘智能科技,Elite Partner,Omniverse,智能科技,NVIDIA GPU,NVIDIA DGX, vGPU,TESLA,QUADRO,AI,AI培训,AI课程,人工智能,解决方案,DLI,Mellanox,IB, 深度学习,RTX,IT,ORACLE 数据库,ORACLE云服务,深度学习学院,bigdata,大数据,数据安全备份,鼎甲,高性能计算, 虚拟机,虚拟桌面,虚拟软件,硬件,软件,加速计算,HPC,超算,服务器,虚拟服务器,IT咨询,IT系统规划,应用实施,系统集成

数据流处理

数据流处理是对接收到的新数据事件进行连续处理。

什么是流处理？

数据流是一连串从生产者到消费者的无限制事件。很多数据都是以事件流的形式产生的，例如金融交易、传感器测量或网络服务器日志。

流处理库（如 Streamz ）有助于建立管理连续数据流的管道，使应用程序能够在事件发生时做出响应。

流处理管道通常涉及多种操作，如过滤器、聚合、计数、分析、转换、丰富、分支、连接、流量控制、反馈到早期阶段、反向压力和存储。

为什么要进行数据流处理？

数据流的连续处理在许多应用中都非常有用，例如

医疗保健：持续监测仪器数据
智能城市：交通模式和拥堵管理
制造业：优化和预测性维护
交通运输：优化路线和燃料消耗
汽车：智能汽车
网络安全、异常检测：网络或网络日志处理
金融：股票市场时间序列
机器学习：实时预测
广告：基于位置或动作的广告

随着企业对实时分析、推理、监控等的高度依赖，流处理市场正在经历指数级增长。基于流的服务现已成为日常业务的核心组成部分，结构化遥测事件和非结构化日志的同比增长率超过 5 倍。在现代业务环境中，这种规模的大数据流变得极其复杂，而且难以高效完成，因此可靠、经济高效的流处理至关重要。

利用 GPU 加速数据流处理

NVIDIA RAPIDS cuStreamz 是首个 GPU 加速流数据处理库，其目标是加快流处理吞吐量并降低总体拥有成本（TCO）。英伟达公司的 cuStreamz 生产流水线每年可节省数十万美元。cuStreamz 采用 Python 语言编写，建立在数据科学库的 GPU 加速器 RAPIDS 之上。端到端 GPU 加速正在迅速成为标准，这一点从 Flink 添加 GPU 支持就可以看出，英伟达很高兴能够成为这一趋势的一部分。

cuStreamz 基于

Streamz 是一个开源 Python 库，可帮助构建流水线管理连续数据流；
Dask ，一个强大可靠的调度程序，用于并行化流式工作负载；
RAPIDS ，一个用于流式计算的 GPU 加速库套件。

cuStreamz 通过在引擎盖下利用 RAPIDS cuDF 加速 Streamz，从而利用 GPU 加速对流式数据的计算。cuStreamz 还受益于 cuDF 的 JSON 、Parquet 和 CSV 读写器加速功能。cuStreamz 团队建立了一个加速的 Kafka 数据源连接器，能以极快的速度将数据从 Kafka 直接读取到 cuDF 数据帧中，从而大大提高了端到端的性能。然后，可以使用 Dask 对流水线进行并行化，以分布式模式运行，从而提高大规模性能。

cuStreamz 是连接 Python 流和 GPU 的桥梁，并增加了复杂可靠的流功能，如检查点和状态管理。cuStreamz 提供了必要的构建模块，使编写的流作业能以更低的成本在 GPU 上可靠地运行，并获得更好的性能。

GPU 加速的端到端数据科学

基于 NVIDIA CUDA-X AI 构建的 RAPIDS 开源软件库套件能够完全在 GPU 上执行端到端数据科学和分析流水线。它依赖于 NVIDIA CUDA 基元进行底层计算优化，但通过用户友好的 Python 接口公开 GPU 并行性和高带宽内存速度。

有了 RAPIDS GPU DataFrame，就可以使用类似 Pandas 的接口将数据加载到 GPU 上，然后用于各种连接的机器学习和图分析算法，而无需离开 GPU。这种互操作性水平是通过 Apache Arrow 等库实现的。它可以为端到端流水线（从数据准备到机器学习再到深度学习）提供加速。

RAPIDS 的 cuML 机器学习算法和数学原语遵循熟悉的 scikit-learn-like API 。许多流行的算法，如 XGBoost，都支持单 GPU 和大型数据中心部署。对于大型数据集，这些基于 GPU 的实现可比 CPU 实现快 10-50 倍。

RAPIDS 支持许多流行的数据科学库之间的设备内存共享。这样就能将数据保留在 GPU 上，避免了来回拷贝到主机内存的高昂成本。

与 NVIDIA 产品相关的图片或视频（完整或部分）的版权均归 NVIDIA Corporation 所有

ZENTEK 新闻

数据流处理