gpt4 book ai didi

ubuntu 创建一个 tensorflow 工作节点

转载 作者:行者123 更新时间:2023-12-04 19:14:00 28 4
gpt4 key购买 nike

我在 Ubuntu 下使用 tensorflow 和 python

我读了here关于如何开始使用 tensorflow 集群,我希望设置另外几台机器来运行 tf 并创建一个工作集群,并且找不到任何关于如何将机器设置为 tf 工作节点的直接示例。

我应该在独立机器上设置它,然后将它们全部绑定(bind)到一个集群吗?
我应该建立一个集群(如果是,那么请引用一些例子)然后在集群上安装 tf 作为一个集群?

编辑:
答案很好且符合条件,我希望了解 tf 集群概念与 Beowulf 集群同意交互的方式,以及我是否需要 Beowulf 集群。

谢谢

最佳答案

我想你错过了页面底部关于如何将 tensorflow 作为参数服务器或工作人员运行的内容,这里有两个参数服务器和两个工作人员。 job_name 表示它是参数服务器还是 worker,task_index 表示该组中机器的索引:

# On ps0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=0
# On ps1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=1
# On worker0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=0
# On worker1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=1

关于ubuntu 创建一个 tensorflow 工作节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45241855/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com