tensorflow - 在 GCP Dataproc 上的 Keras 模型上使用分布式 Tensorflow-6ren

tensorflow - 在 GCP Dataproc 上的 Keras 模型上使用分布式 Tensorflow

转载作者：行者123 更新时间：2023-12-04 01:38:38

25

4

我对 GCP Dataproc 上的云计算完全陌生。我在创建集群时安装了 TonY(Tensorflow on Yarn)，以便能够在其上运行 tensorflow。

我卡在创建 tf.train.ClusterSpec 部分的部分，以便在我的 keras 模型上运行分布式 tensorflow 。似乎只要我创建一个 clusterspec，然后使用 tf.train.Server 和 tf.Session 创建一个服务器和一个 session ，我就可以使用 K.set_session(session created) 为我的 keras 模型设置 session 。我只是想确定这是否正确？什么是工作节点和 ps 节点，我如何将它引用到我在 GCP Dataproc 中创建的集群中的主节点和工作节点。当我也在创建 session 时，tf.train.Server 中的参数是否只是 server.target？

# Keras Core
from keras.layers.convolutional import MaxPooling2D, Convolution2D, 
AveragePooling2D
from keras.layers import Input, Dropout, Dense, Flatten, Activation
from keras.layers.normalization import BatchNormalization
from keras.layers.merge import concatenate
from keras import regularizers
from keras import initializers
from keras.models import Model
# Backend
from keras import backend as K
# Utils
from keras.utils.layer_utils import convert_all_kernels_in_model
from keras.utils.data_utils import get_file
from keras.preprocessing.image import ImageDataGenerator
from keras import optimizers
from keras.preprocessing.image import img_to_array, load_img

from keras import backend as K
import numpy as np
import os
import inspect
from tqdm import tqdm
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from keras.callbacks import ModelCheckpoint
import tensorflow as tf
from PIL import Image

#Is worker going to reference to my worker nodes in my cluster and ps 
references to my master node in my cluster?
#Do I put the external addresses of the nodes into their respective lists?
cluster = tf.train.ClusterSpec({"worker": ["35.236.62.93:2222",
                                       "35.236.30.154:2222",
                                       "35.235.127.146:2222"],
                            "ps": ["5.235.95.74:2222"]})
#Is my job name correct as well?
server = tf.train.Server(cluster, job_name="ps")

#Does tf.Session take in server.target as its parameter?
sess = tf.Session(server.target)
K.set_session(sess)

最佳答案

为了访问您的集群配置，请使用 TensorFlow 代码中的 CLUSTER_SPEC。可以关注this工作示例:

    cluster_spec_str = os.environ["CLUSTER_SPEC"]
    cluster_spec = json.loads(cluster_spec_str)
    ps_hosts = cluster_spec['ps']
    worker_hosts = cluster_spec['worker']

通过使用 Cloud Dataproc 启动 TonY 作业，TonY 会在 YARN 容器内设置 CLUSTER_SPEC 环境变量，您可以按上述方式直接访问该变量。

您还可以使用 JOB_NAME 环境变量访问作业名称:

  job_name = os.environ["JOB_NAME"]

您应该能够将 TonY MNIST 示例用作 reference .请告诉我们这是否适合您。

在 Cloud Dataproc 中，我们有 2 个概念:

硕士
worker

在Hadoop 世界中，这些分别指的是资源管理器(Master)和节点管理器(Worker)。在此示例中，我们有一个包含 1 个主节点和 4 个工作节点的 Cloud Dataproc 集群:

这显示了集群中的所有虚拟机:

从 TensorFlow 的角度来看，您可以使用 3 种主要策略进行分布式机器学习:

MirroredStrategy:多个 GPU，单个节点
CollectiveAllReduceStrategy:多 GPU，多节点 All-Reduce
ParameterServerStrategy:多GPU、多节点、Parameter+Worker节点

在您的情况下，当您启动 TonY 作业时，您似乎指的是后者，因此在这种情况下，您将定义一个 .xml 文件 tony.xml，您可以在其中定义参数服务器和工作人员的数量。

<configuration>
 <property>
  <name>tony.application.security.enabled</name>
  <value>false</value>
 </property>
 <property>
  <name>tony.worker.instances</name>
  <value>${worker_instances}</value>
 </property>
 <property>
  <name>tony.worker.memory</name>
  <value>${worker_memory}</value>
 </property>
 <property>
  <name>tony.ps.instances</name>
  <value>${ps_instances}</value>
 </property>
 <property>
  <name>tony.ps.memory</name>
  <value>${ps_memory}</value>
 </property>
</configuration>

当 TonY 客户端将此请求发送到 Cloud Dataproc 时，Dataproc 默认会在任何 Dataproc worker 中分配容器(Dataproc master 不用于处理)。示例:

<configuration>
 <property>
  <name>tony.application.security.enabled</name>
  <value>false</value>
 </property>
 <property>
  <name>tony.worker.instances</name>
  <value>2</value>
 </property>
 <property>
  <name>tony.worker.memory</name>
  <value>4g</value>
 </property>
 <property>
  <name>tony.ps.instances</name>
  <value>1</value>
 </property>
 <property>
  <name>tony.ps.memory</name>
  <value>2g</value>
 </property> 
</configuration>

这将请求 4 个容器:

1 名申请主管
1个参数服务器
2 个工作服务器

分配取决于资源管理器调度程序。默认情况下，Dataproc 使用 DefaultResourceCalculator 并将尝试在任何 Dataproc 集群事件工作器中查找资源。

请查看 MNIST 和 Cloud DataProc 的当前示例:

https://github.com/linkedin/TonY/tree/master/tony-examples/tony-in-gcp

关于tensorflow - 在 GCP Dataproc 上的 Keras 模型上使用分布式 Tensorflow，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54811207/

25

4

0

文章推荐： vim - 使用 CommandT 时，Ctrl + S 在 VIM 中不能用作水平拆分

文章推荐： .net - 从 HttpResponseMessage 中提取内容

tensorflow - 如何将 tensorflow.js 模型和权重转换为标准 tensorflow？
我想将模型及其各自训练的权重从 tensorflow.js 转换为标准 tensorflow，但无法弄清楚如何做到这一点，tensorflow.js 的文档对此没有任何说明我有一个 manifest
tensorflow - 在没有安装 Tensorflow 的情况下运行 Tensorflow 模型
我有一个运行良好的 TF 模型，它是用 Python 和 TFlearn 构建的。有没有办法在另一个系统上运行这个模型而不安装 Tensorflow？它已经经过预训练，所以我只需要通过它运行数据。我
tensorflow - 如何命名要在 Tensorflow Serving 中使用的 Tensorflow 模型？
当执行 tensorflow_model_server 二进制文件时，它需要一个模型名称命令行参数，model_name。如何在训练期间指定模型名称，以便在运行 tensorflow_model_s
tensorflow - TensorFlow 中的生存分析
我一直在 R 中使用标准包进行生存分析。我知道如何在 TensorFlow 中处理分类问题，例如逻辑回归，但我很难将其映射到生存分析问题。在某种程度上，您有两个输出向量而不是一个输出向量(time_t
tensorflow - Tensorflow 中的高斯核
Torch7 has a library for generating Gaussian Kernels在一个固定的支持。 Tensorflow 中有什么可比的吗？我看到 these distribu
tensorflow - Tensorflow 中的回调
在Keras中我们可以简单的添加回调，如下所示: self.model.fit(X_train,y_train,callbacks=[Custom_callback]) 回调在doc中定义，但我找不到
tensorflow - tensorflow 中的条件打印节点
我正在寻找一种在 tensorflow 中有条件打印节点的方法，使用下面的示例代码行，其中每 10 个循环计数，它应该在控制台中打印一些东西。但这对我不起作用。谁能建议？谢谢，哈米德雷萨， epsi
tensorflow - tensorflow 对象检测训练中的标签文件
我想使用 tensorflow object detection API 创建我自己的 .tfrecord 文件，并将它们用于训练。该记录将是原始数据集的子集，因此模型将仅检测特定类别。我不明白也无法
tensorflow - 为 Tensorflow.js 保存 TensorFlow 模型
我在 TensorFlow 中训练了一个聊天机器人，想保存模型以便使用 TensorFlow.js 将其部署到 Web。我有以下内容 checkpoint = "./chatbot_weights.c
tensorflow - TensorFlow 中图像张量的形状是什么
我最近开始学习 Tensorflow，特别是我想使用卷积神经网络进行图像分类。我一直在看官方仓库中的android demo，特别是这个例子:https://github.com/tensorflow
tensorflow - 为什么 TensorFlow Lite 比桌面版 TensorFlow 慢？
我目前正在研究单图像超分辨率，并且我设法卡住了现有的检查点文件并将其转换为 tensorflow lite。但是，使用 .tflite 文件执行推理时，对一张图像进行上采样所需的时间至少是使用 .ck
tensorflow - tensorflow 中的批量标准化
我注意到 tensorflow 的 api 中已经有批量标准化函数。我不明白的一件事是如何更改训练和测试之间的程序？批量归一化在测试和训练期间的作用不同。具体来说，在训练期间使用固定的均值和方差。
tensorflow - 我转换后的 tensorflow 迁移学习模型总是在 Tensorflow JS 中返回相同的结果
我创建了一个模型，该模型将 Mobilenet V2 应用于 Google colab 中的卷积基础层。然后我使用这个命令转换它: path_to_h5 = working_dir + '/Tenso
tensorflow - TensorFlow 如何知道要更改哪些变量以进行优化？
代码取自:- http://adventuresinmachinelearning.com/python-tensorflow-tutorial/ import tensorflow as tf fr
tensorflow - TensorFlow:我的登录信息是否采用正确的格式以实现交叉熵功能？
好了，所以我准备在Tensorflow中运行 tf.nn.softmax_cross_entropy_with_logits() 函数。据我了解，“logit”应该是概率的张量，每个对应于某个像素的
tensorflow - bazel 使用本地下载的 tensorflow 构建 tensorflow 服务
tensorflow 服务构建依赖于大型 tensorflow ；但我已经成功构建了 tensorflow。所以我想用它。我做这些事情:我更改了 tensorflow 服务 WORKSPACE(org
tensorflow - Tensorflow 嵌入层内部的网络结构是什么？
Tensoflow 嵌入层 ( https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding ) 易于使用，并且有大量的文
tensorflow - Tensorflow 是否可以进行增量学习？
我正在尝试使用非常大的数据集(比我的内存大得多)训练 Tensorflow 模型。为了充分利用所有可用的训练数据，我正在考虑将它们分成几个小的“分片”，并一次在一个分片上进行训练。经过一番研究，我
tensorflow - TensorFlow 中的资格跟踪
根据 Sutton 的书 - Reinforcement Learning: An Introduction，网络权重的更新方程为: 其中 et 是资格轨迹。这类似于带有额外 et 的梯度下降更新。
tensorflow - TensorFlow 中的条件执行
如何根据条件选择执行图表的一部分？我的网络有一部分只有在 feed_dict 中提供占位符值时才会执行.如果未提供该值，则采用备用路径。我该如何使用 tensorflow 来实现它？以下是我的代码

首页

博学

6Ren·AI

商城

tensorflow - 在 GCP Dataproc 上的 Keras 模型上使用分布式 Tensorflow