python - Ray Cluster如何访问所有节点资源-6ren

python - Ray Cluster如何访问所有节点资源

转载作者：行者123 更新时间：2023-12-01 07:55:48

29

4

我可以访问节点集群，我的理解是，一旦我在具有相同 Redis 地址的每个节点上启动 ray，头节点就可以访问所有节点的所有资源。

主要脚本:

export LC_ALL=en_US.utf-8
export LANG=en_US.utf-8 # required for using python 3 with click
source activate rllab3

redis_address="$(hostname --ip-address)"
echo $redis_address
redis_address="$redis_address:59465"
~/.conda/envs/rllab3/bin/ray start --head --redis-port=59465

for host in $(srun hostname | grep -v $(hostname)); do 
    ssh $host setup_node.sh $redis_address
done

python test_multi_node.py $redis_address

setup_node.sh 是

export LC_ALL=en_US.utf-8
export LANG=en_US.utf-8

source activate rllab3

echo "redis address is $1"

~/.conda/envs/rllab3/bin/ray start --redis-address=$1

和

test_multi_node.py 是

import ray
import time
import argparse

parser = argparse.ArgumentParser(description = "ray multinode test")
parser.add_argument("redis_address", type=str, help="ip:port")
args = parser.parse_args()
print("in python script redis addres is:", args.redis_address)

ray.init(redis_address=args.redis_address)
print("resources:", ray.services.check_and_update_resources(None, None, None))

@ray.remote
def f():
    time.sleep(0.01)
    return ray.services.get_node_ip_address()

# Get a list of the IP addresses of the nodes that have joined the cluster.
print(set(ray.get([f.remote() for _ in range(10000)])))

Ray 似乎在所有节点上成功启动，并且 python 脚本打印出与我拥有的节点一样多的 IP 地址(并且它们是正确的)。但是打印资源时只有一个节点的资源。

如何让 ray 能够访问所有节点的所有资源？我一定有一个根本性的误解，因为我认为在其他节点上设置 ray 的目的是让它访问所有资源。

根据to this ray 应该自动检测新节点上的资源，所以我不知道这里发生了什么。

最佳答案

方法ray.services.check_and_update_resources是一个内部方法，不打算公开。您可以使用 ray.global_state.cluster_resources() 以及 ray.global_state.client_table() 检查集群资源。

关于python - Ray Cluster如何访问所有节点资源，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55988775/

29

4

0

文章推荐： jquery - 在jsTree中打开子节点

文章推荐： powershell - 尝试获取 PowerShell 脚本以运行 nuget.exe 命令

文章推荐： c# - 如何使用MVC在div中显示图像

文章推荐： string - 用 sed 替换方括号之间的字符串

ray - 在满足复杂条件时提前停止 ray.tune 实验？
有没有办法停止ray.tune实验(例如使用 PBT)当明显过度拟合或一个指标长时间没有改善时？最佳答案现在，这在 Tune 中得到了很好的支持，https://github.com/ray-pr
ray - 如何评估在 rllib (Ray) 的自定义环境中训练的 Actor ？
在 SimpleCorridor 之后我可以创建自己的环境并训练模型!好的。但是当我尝试评估这个经过训练的模型时，rllib 无法识别我的自定义环境。如何在自定义环境中评估经过训练的模型？当我像建
ray - 在前台的 docker 容器中运行 ray serve，而不是守护进程模式
我正在运行 Ray Serve 来托管 ray 远程函数的 HTTP API。有没有比下面更好的方法在前台运行 Ray Serve(即非守护进程模式)。代码直接取自射线服务示例: import os
python - 具有多个返回并调用 ray.get() 的 Ray python 示例
下面的代码完成了所需的行为。是否可以从前两个函数传递第二个参数而不必过早地调用 ray.get？ @ray.remote def color(): image=cv2.imread("fram
c++ - 光线追踪 : Only use single ray instead of both reflection & refraction rays
我目前正在尝试理解由 Kevin Beason (smallpt: http://www.kevinbeason.com/smallpt/) 开发的光线追踪器，如果我正确理解代码，他会随机选择反射或折
node.js - 使用 x-ray 和 x-ray-phantom 抓取动态页面内容时出现 fatal error
当我在 Node 上运行 app.js 时，我在命令行中收到此错误: FATAL ERROR: v8::HandleScope::CreateHandle() Cannot create a hand
ray - 退出前等待所有任务完成的标准方法
我想知道 - 是否有一种直接的方法可以在退出之前等待所有任务完成运行而不跟踪所有 ObjectID(和 get()ing他们)？用例是当我启动 @remote 以保存输出时，例如，在不需要返回结果的情
ray - 射线调谐试验的检查点最佳模型
所以我只是跑了一个 tune实验并得到以下输出: +--------------------+------------+-------+-------------+----------------+-
python - Ray Cluster如何访问所有节点资源
我可以访问节点集群，我的理解是，一旦我在具有相同 Redis 地址的每个节点上启动 ray，头节点就可以访问所有节点的所有资源。主要脚本: export LC_ALL=en_US.utf-8 exp
algorithm - Ray - 八叉树相交算法
我正在寻找一个好的光线八叉树相交算法，它以迭代的方式为我提供光线穿过的叶子。我计划在 CPU 上实现它，因为我还不想深入研究 CUDA :) 目前，我的 Voxel raycaster 仅在 XxYx
python - 无法安装 RAY
来自 RISE 实验室的射线库 (https://rise.cs.berkeley.edu/blog/pandas-on-ray/) 我正在使用 64 位 Windows 10 专业版并从 Anaco
ray-分布式计算框架-集群与异步Job管理
0. ray 简介 ray是开源分布式计算框架，为并行处理提供计算层，用于扩展AI与Python应用程序，是ML工作负载统一工具包 Ray AI Runtime
python - 如何在 Ray 中使用全局变量
我有一个看起来更复杂的脚本: import ray var1 = 0 var2 = 0 @ray.remote def create(n): global var1 global va
python - 在 Ray 中的远程函数之间存储对象
我正在编写一个项目，该项目多次使用相同的数据进行写入，并且我一直在使用 ray 在集群设置中对其进行扩展，但是文件太大而无法来回发送/保存射线对象一直存储。有没有办法在远程函数调用之间将 python
numpy - RAY Python 框架内存不足
我用 ray 创建了一个简单的远程函数，它占用的内存很少。但是，运行一小段时间后，内存稳步增加，并且出现 RayOutOfMemoryError 异常。下面的代码是这个问题的一个非常简单的例子。 “
geometry - "ray through vertex"检测多边形中的点时的特殊情况
要检测一个点是否在多边形中，您可以从该点到无穷远投影一条线，然后查看它与多少个多边形顶点相交......足够简单。我的问题是，如果射线在其中一个点上与多边形相交，则将其视为与两个线段相交，并被视为在多
python - 使用 Ray 并行化大型程序的正确方法
我有一个相当大的 Python 程序(~800 行)，它具有以下结构: 设置说明，我在其中处理用户提供的输入文件并定义对程序执行具有全局性的变量/对象。 Main 函数，它利用前面的设置阶段并调用程序
c++ - Ray Tracer，阴影射线产生黑圈？
正如您在图像中看到的那样，我在球体顶部看到了一个黑色圆圈，并且图像看起来有颗粒感。它应该更清晰，但是有这些小的黑白点。这是阴影射线的代码 int pos = 0; float intersect(c
python - 使用 Ray 并行化大型程序的正确方法
我有一个相当大的 Python 程序(~800 行)，它具有以下结构: 设置说明，我在其中处理用户提供的输入文件并定义对程序执行具有全局性的变量/对象。 Main 函数，它利用前面的设置阶段并调用程序
c++ - 用于光线拾取的“Ray”创建无法完全正常工作
我正在尝试实现一个“光线选择器”以在我的项目中选择对象。我不完全理解如何实现这一点，但我从概念上理解它应该如何工作。我一直在努力学习如何做到这一点，但我发现大多数教程都让我难以理解。我当前的代码基于我

首页

博学

6Ren·AI

商城

python - Ray Cluster如何访问所有节点资源