python - 尝试使用 Cloud TPU 恢复更新的 BERT 模型检查点时出现 InfeedEnqueueTuple 问题-6ren

python - 尝试使用 Cloud TPU 恢复更新的 BERT 模型检查点时出现 InfeedEnqueueTuple 问题

转载作者：行者123 更新时间：2023-12-05 07:28:31

27

4

如果您对以下内容有任何帮助，我将不胜感激，在此先感谢您。我复制了一份 Google Bert's notebook on fine-tuning并使用 Cloud TPU 和 Bucket 在其上训练 SQUAD 数据集。 dev set上的预测没问题，所以我在本地下载了checkpoint、model.ckpt.meta、model.ckpt.index和model.ckpt.data文件，尝试用代码恢复:

sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True))
saver = tf.train.import_meta_graph(META_FILE) # META_FILE being path to .meta
saver.restore(sess, 'model.ckpt')

但是，我得到了错误:

    op_def = op_dict[node.op]
KeyError: 'InfeedEnqueueTuple'

我假设它是 Cloud TPU Tools 的一部分我应该继续使用 Cloud TPU，所以我尝试了以下 ( reference ):

# code from cells before includes
...
tf.contrib.cloud.configure_gcs(session, credentials=auth_info)
...
tpu_cluster_resolver = tf.contrib.cluster_resolver.TPUClusterResolver(TPU_ADDRESS)
run_config = tf.contrib.tpu.RunConfig(
    cluster=tpu_cluster_resolver,
    model_dir=OUTPUT_DIR,
    save_checkpoints_steps=SAVE_CHECKPOINTS_STEPS,
    tpu_config=tf.contrib.tpu.TPUConfig(
        iterations_per_loop=ITERATIONS_PER_LOOP,
        num_shards=NUM_TPU_CORES,
        per_host_input_for_training=tf.contrib.tpu.InputPipelineConfig.PER_HOST_V2))
...

问题单元格:

"""
# not valid checkpoint error. <bucket> placeholder for cloud bucket name
sess = tf.Session()
META_FILE = "gs://<bucket>/bert/models/bertsquad/model.ckpt-10949.meta"
CKPT_FILE = "gs://<bucket>/bert/models/bertsquad/model.ckpt"
saver = tf.train.import_meta_graph(META_FILE)
saver.restore(sess, CKPT_FILE)
"""

from google.cloud import storage
from tensorflow import MetaGraphDef

client = storage.Client(project="agent-helper-4a014")
bucket = client.get_bucket(<bucket>)
metafile = "bert/models/bertsquad/model.ckpt-10949.meta"
# using full path gs://<bucket>/bert/models/bertsquad doesn't work

blob = bucket.get_blob(metafile)
#blob = bucket.blob(metafile)
#model_graph = blob.download_to_filename("model.ckpt")
model_graph = blob.download_as_string()

mgd = MetaGraphDef()
mgd.ParseFromString(model_graph)

with tf.Session() as sess:
    saver = tf.train.import_meta_graph(mgd, clear_devices=True)
    init_checkpoint = saver.restore(sess, 'model.ckpt')

这又导致了以下错误:

InvalidArgumentError (see above for traceback): Restoring from checkpoint failed. This is most likely due to a mismatch between the current graph and the graph from the checkpoint. Please ensure that you have not altered the graph expected based on the checkpoint. Original error:

No OpKernel was registered to support Op 'InfeedEnqueueTuple' with these attrs.  Registered devices: [CPU,XLA_CPU], Registered kernels:
  <no registered kernels>

     [[node input_pipeline_task0/while/InfeedQueue/enqueue/0 (defined at <ipython-input-67-e4b52b7b5944>:21)  = InfeedEnqueueTuple[_class=["loc:@input_pipeline_task0/while/IteratorGetNext"], device_ordinal=0, dtypes=[DT_INT32, DT_INT32, DT_INT32, DT_INT32, DT_INT32, DT_INT32], shapes=[[2], [2,384], [2,384], [2,384], [2], [2]], _device="/job:worker/task:0/device:CPU:0"](input_pipeline_task0/while/IteratorGetNext, input_pipeline_task0/while/IteratorGetNext:1, input_pipeline_task0/while/IteratorGetNext:2, input_pipeline_task0/while/IteratorGetNext:3, input_pipeline_task0/while/IteratorGetNext:4, input_pipeline_task0/while/IteratorGetNext:5)]]

最佳答案

如果您的动机是预测，那么只需提供保存检查点和元文件的 model_dir 位置(必须是 GCS 存储桶)。该代码不会再次进行训练(因为检查点是为训练步骤数而保存的，并且模型图中没有变化)。它会直接跳转到预测。

但是，如果您的用例真的想保存检查点，并且只为了推理而恢复它，那么请按照以下步骤操作:

为每一层手动创建模型网络作为原始模型或使用保存的 .meta 文件使用 tf.train.import() 重新创建网络像这样的功能:

saver = tf.train.import_meta_graph('<filename>.meta')

现在，恢复检查点使用:saver.restore(sess, 'model.ckpt')

注意:恢复检查点的模型图应该与保存这些检查点的原始图完全相同。

希望这能解决您的问题。

关于python - 尝试使用 Cloud TPU 恢复更新的 BERT 模型检查点时出现 InfeedEnqueueTuple 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53333769/

27

4

0

文章推荐： polygon - 使用多边形形状创建和监控地理围栏

文章推荐： c# - 如何自定义渲染 UWP 湿墨

文章推荐： laravel - 为什么 Vue.js 在 Laravel 5.6 中不显示任何内容？

文章推荐：将服务 worker 安装到现有应用程序时出现 Angular 错误

javascript - Mongoose 更新/更新？
我查看了网站上的一些问题，但还没有完全弄清楚我做错了什么。我有一些这样的代码: var mongoose = require('mongoose'), db = mongoose.connect('m
javascript - 更新、退出、更新、进入带有转换的模式
基本上，根据 this bl.ocks，我试图在开始新序列之前让所有 block 都变为 0。我认为我需要的是以下顺序: 更新为0 退出到0 更新随机数输入新号码我尝试通过添加以下代码块来遵循上述
java - 强制在线程内进行 GUI 更新 - JSlider 更新
我试图通过使用随机数在循环中设置 JSlider 位置来模拟“赛马”的投注结果。我的问题是，当然，我无法在线程执行时更新 GUI，因此我的 JSlider 似乎没有在竞赛，它们从头到尾都在运行。我尝试
php - PDO 更新帮助执行 pdo 更新
该功能非常简单: 变量:$table是正在更新的表$fields 是表中的字段，$values 从帖子生成并放入 $values 数组中而$where是表的索引字段的id值$indxfldnm 是索引
java - 数据库多线程插入(更新)和单线程顺序插入(更新)的性能比较？
让我们想象一个环境:有一个数据库客户端和一个数据库服务器。数据库客户端可以是 Java 程序或其他程序等；数据库服务器可以是mysql、oracle等。需求是在数据库服务器上的一个表中插入大量记录。
php - 更新、插入和删除时的 MySQL 更新 ID
在我当前的应用程序中，我正在制作一个菜单结构，它可以递归地创建自己的子菜单。然而，由于这个原因，我发现很难也允许某种重新排序方法。大多数应用程序可能只是通过“排序”列进行排序，但是在这种情况下，尽管这
ios - 更新/过期后供应配置文件 key 将更改 - 更新
Provisioning Profile 有 key ， key 链依赖于它。我想知道 key 什么时候会改变。 Key will change after renew Provisioning Pr
javascript - 是否应该发布 MongoDB 插入/更新/更新/删除？
截至目前，我在\server\publications.js 中有我的 MongoDB“选择”，例如: Meteor.publish("jobLocations", function () { r
ios - Swift:更新 UI - 主线程上的整个功能或只是 UI 更新？
我读到 UI 应该始终在主线程上更新。但是，当谈到实现这些更新的首选方法时，我有点困惑。我有各种函数可以执行一些条件检查，然后使用结果来确定如何更新 UI。我的问题是整个函数应该在主线程上运行吗？应
docker - yum 更新/apk 更新/apt-get 更新在代理后面不起作用
我在代理后面，我无法构建 Docker 镜像。我试过 FROM ubuntu , FROM centos和 FROM alpine ，但是 apt-get update/yum update/apk
java - 更新-更新 java truststore 中的自签名 CA 证书
我构建了一个 Java 应用程序，它向外部授权客户端公开网络服务。 Web 服务使用带有证书身份验证的 WS-security。基本上我们充当自定义证书颁发机构 - 我们在我们的服务器上维护一个 ja
asp.net - 更新 dll 时使用 app_offline.htm 使应用程序脱机更新 dll 时失败
因此，我有时会在上传新版本时使用 app_offline.htm 使应用程序离线。但是，当我上传较大的 dll 时，我收到黄色错误屏幕，指出无法加载 dll。这似乎与我对 app_offline.
visual-studio-cordova - 更新 Node 和 NPM VS Cordova 更新 5
我刚刚下载了 VS Apache Cordova Tools Update 5，但遇到了 Node 和 NPM 的问题。我使用默认的空白 cordova 项目进行测试。版本如果我在 VS 项目中对
angularjs - 避免 ng-view 在 $location.search 更新 GET 参数时获取 "wiped"(更新)
所以我有一个使用传单库实例化的 map 对象。 map 实例在单独的模板中创建并以这种方式路由:- var app = angular.module('myApp', ['ui', 'ngResour
java - Java 6 更新 19,20 中的绘图性能与 Java 6 更新 3 相比？
我使用较早的 Java 6 u 3 获得的帧速率是新版本的两倍。很奇怪。谁能解释一下？在 Core 2 Duo 1.83ghz 上，集成视频(仅使用一个内核)- 1500(较旧的 java)与 70
javascript - angular ng-click inside ng-repeat 更新 $scope 然后使用 $apply 更新 dom
我正在使用 angular 1.2 ng-repeat 创建的 div 也包含 ng-click 点击时 ng-click 更新 $scope $scope 中的变化反射(reflect)在使用 $a
android - public final void moveCamera(CameraUpdate 更新)和 public final void animateCamera(CameraUpdate 更新)之间的区别？
这些方法有什么区别 public final void moveCamera(CameraUpdate更新)和public final void animateCamera (CameraUpdate
列表树(更新)
我尝试了另一篇文章中某人评论中关于如何将树更改为列表的建议。但是，我在某处(或某物)有未声明的变量，所以我列表中的值是 [_G667, _G673, _G679]，而不是 [5, 2, 6]，这是正确
Java数据库大数据量查询/更新
实现以下场景的最佳方法是什么？我需要从java应用程序调用/查询包含数百万条记录的数据库表。然后，对于表中的每条记录，我的应用程序应该调用第三方 API 并获取状态字段作为响应。然后我的应用程序应该
Java重绘()/更新()
只是在编写一些与 java 图形相关的代码，这是我今天的讲座中的非常简单的示例。不管怎样，互联网似乎说更新不会被系统触发器调用，例如调整框架大小等。在这个例子中，更新是由这样的触发器调用的(因此当我只

首页

博学

6Ren·AI

商城

python - 尝试使用 Cloud TPU 恢复更新的 BERT 模型检查点时出现 InfeedEnqueueTuple 问题