Ray构建GPU隔离的机器学习平台

# Define the square task.
@ray.remote
def square(x):
    return x * x

# Launch four parallel square tasks.
futures = [square.remote(i) for i in range(4)]

# Retrieve results.
print(ray.get(futures))
# -> [0, 1, 4, 9]

在分布式环境中执行一个简单的数值平方任务

示例2

# 定义一个叫Counter的actor类。
@ray.remote
class Counter:
    def __init__(self):
        self.i = 0  # 初始值设为0

    def get(self):
        return self.i  # 返回当前值

    def incr(self, value):
        self.i += value  # 将当前值增加指定的数值

# 创建一个Counter actor的实例。
c = Counter.remote()

# 提交调用到actor。这些调用在远程actor进程中异步执行，但按提交顺序执行。
for _ in range(10):
    c.incr.remote(1)  # 对i进行10次增量操作，每次增加1

# 获取最终actor状态。
print(ray.get(c.get.remote()))  # -> 10 打印最终的i值

这个代码演示了如何在Ray中定义和使用actor来进行状态的存储和异步操作。它创建了一个简单的计数器actor，通过10次远程调用增加其内部计数，最后检索并打印出这个计数器的最终值。

示例3

import numpy as np

# 定义一个任务，用于计算矩阵中的值之和。
@ray.remote
def sum_matrix(matrix):
    return np.sum(matrix)  # 使用numpy的sum函数计算矩阵的总和

# 使用具体的参数值调用任务。
print(ray.get(sum_matrix.remote(np.ones((100, 100)))))  # -> 10000.0
# 此行输出100x100的全1矩阵的元素和，即10000.0

# 将一个大数组放入对象存储中。
matrix_ref = ray.put(np.ones((1000, 1000)))  # 创建1000x1000的全1矩阵并获取其引用

# 使用对象引用matrix_ref 作为参数调用任务。
print(ray.get(sum_matrix.remote(matrix_ref)))  # -> 1000000.0
# 此行输出1000x1000的全1矩阵的元素和，即1000000.0

Ray Data组件

Ray Data 是一个适用于 ML 工作负载的可扩展数据处理库。

Ray Data 和 Apache Spark的离线计算有一些相似之处，但也有重要的区别。Ray Data的设计更加灵活，能够更好地与机器学习和AI工作流程集成。此外，Ray Data支持的动态任务调度和弹性扩展能力在某些方面超越了Spark。总体而言，尽管二者在处理大规模数据方面有共通之处，但它们的设计理念、优化点和适用场景存在差异。

Ray Data 是一个适用于 ML 工作负载的可扩展数据处理库，特别适合以下工作负载：

它为分布式数据处理提供灵活且高性能的API：

简单的变换，例如映射 ( map_batches())
全局聚合和分组聚合 ( groupby())
洗牌操作 ( random_shuffle(), sort(), repartition())。

Ray Data 构建在 Ray 之上，因此它可以有效地扩展到大型集群，并为 CPU 和 GPU 资源提供调度支持。Ray Data 使用流式执行来高效处理大型数据集。

Ray Train组件

Ray Train组件为TensorFlow、PyTorch和Keras提供了分布式训练的封装。它使得在多GPU或多节点环境中进行模型训练变得简单，无需深入了解底层的分布式计算细节。Ray Train自动管理数据的分布和同步，优化资源分配，并提供了一套简洁的API来透明地实现数据并行和模型并行。这允许开发者专注于模型的设计和训练，而不是分布式系统的复杂性。

具体应用

相关资料

滴滴基于 Ray 的 XGBoost 大规模分布式训练实践

Key Concepts — Ray 2.8.0

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came

魔乐社区

如何使用copy-to-clipboard：3分钟快速实现浏览器文本复制功能

在现代网页开发中，实现浏览器文本复制功能是提升用户体验的重要环节。**copy-to-clipboard** 是一个轻量级 JavaScript 库，能够帮助开发者快速集成跨浏览器的文本复制功能，无需复杂的原生 API 操作。本文将带你3分钟掌握这个实用工具的使用方法，让你的网页轻松拥有一键复制功能。## 为什么选择 copy-to-clipboard？copy-to-clipboard