gpt4 book ai didi

tensorflow - 如何在具有多个 CPU 的多个节点上运行 TensorFlow

转载 作者:行者123 更新时间:2023-12-01 04:36:09 24 4
gpt4 key购买 nike

我想在非常大的数据集上使用 TensorFlow 运行线性回归。我有一个集群,每个集群有 9 个节点和 36 个 CPU。在所有可用资源之间分配计算的最佳方法是什么?

根据本类(class)https://www.coursera.org/learn/intro-tensorflow ,在分布式设置中使用 TensorFlow 的最佳方法是使用 Estimators。所以我按照那里的建议编写了我的代码,并按照 https://www.tensorflow.org/deploy/distributed 上的说明进行了操作。用于并行化。然后我尝试运行我的脚本 my_code.py (在具有 1.2 亿个数据点和 2 个特征列以测试代码的“小”数据集上)在节点 2 和 3 上,如下所示:

python my_code.py \ 
--ps_hosts=node1:2222 \
--worker_hosts=node2:2222,node3:2222
--job_name=worker
--task_index="i-2"

哪里 i是节点的编号(2 或 3);而在节点 1 上我也这样做,但使用 --job_name=ps--task_index=0 .但是,通过这种方式,每个节点似乎只使用了一个 CPU。我需要单独指定每个 CPU 吗?

先感谢您。

最佳答案

据我所知,最好的办法是将同一节点上的所有 CPU 作为单个工作程序一起使用,以充分利用共享内存。因此,例如在上述情况下,您必须手动指定仅 9 个 worker,并确保每个 worker 对应一个节点,其中使用了所有 36 个 CPU。执行此操作的命令取决于所使用的特定集群。

关于tensorflow - 如何在具有多个 CPU 的多个节点上运行 TensorFlow,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51725914/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com