tensorflow - 如何将 tf.data.Dataset 与 kedro 一起使用？-6ren

tensorflow - 如何将 tf.data.Dataset 与 kedro 一起使用？

转载作者：行者123 更新时间：2023-12-05 07:01:52

38

4

我正在使用 tf.data.Dataset准备用于训练 tf.kears 模型的流数据集。用kedro , 有没有办法创建一个节点并返回创建的 tf.data.Dataset 以在下一个训练节点中使用它？

MemoryDataset可能无法工作，因为 tf.data.Dataset 不能被 pickle(deepcopy 不可能)，另见 this SO question .根据issue #91 MemoryDataset 中的深拷贝是为了避免其他节点修改数据。有人可以详细说明为什么/如何发生这种并发修改吗？

来自docs ，似乎有一个 copy_mode = "assign"。如果数据不可 pickle ，是否可以使用此选项？

另一种解决方案(在 issue 91 中也提到)是仅使用一个函数在训练节点内生成流式 tf.data.Dataset，而无需前面的数据集生成节点。但是，我不确定这种方法的缺点是什么(如果有的话)。如果有人可以举一些例子，那就太好了。

此外，我想避免存储流数据集的完整输出，例如使用 tfrecords或 tf.data.experimental.save因为这些选项会占用大量磁盘存储空间。

有没有办法只传递创建的 tf.data.Dataset 对象以将其用于训练节点？

最佳答案

虽然在 kedro.community 中有介绍，但为了社区的利益在此提供解决方法由@DataEngineerOne 提供。

根据@DataEngineerOne。

With kedro, is there a way to create a node and return the createdtf.data.Dataset to use it in the next training node?

是的，绝对!

Can someone please elaborate a bit more on why/how this concurrentmodification could happen?

From the docs, there seems to be a copy_mode = "assign" . Would it bepossible to use this option in case the data is not picklable?

我还没有尝试过这个选项，但理论上应该可行。您需要做的就是在包含 copy_mode 选项的 catalog.yml 文件中创建一个新的数据集条目。

例如:

# catalog.yml
tf_data:
  type: MemoryDataSet
  copy_mode: assign

# pipeline.py
node(
  tf_generator,
  inputs=...,
  outputs="tf_data",
)

我不能保证这个解决方案，但试一试，让我知道它是否适合你。

Another solution (also mentioned in issue 91) is to use just afunction to generate the streaming tf.data.Dataset inside the trainingnode, without having the preceding dataset generation node. However, Iam not sure what the drawbacks of this approach will be (if any).Would be greate if someone could give some examples.

这也是一个很好的替代解决方案，我认为(猜测)MemoryDataSet 在这种情况下会自动使用 assign，而不是其正常的 deepcopy ，所以你应该没问题。

# node.py

def generate_tf_data(...):
  tensor_slices = [1, 2, 3]
  def _tf_data():
    dataset = tf.data.Dataset.from_tensor_slices(tensor_slices)
    return dataset
  return _tf_data

def use_tf_data(tf_data_func):
  dataset = tf_data_func()

# pipeline.py
Pipeline([
node(
  generate_tf_data,
  inputs=...,
  outputs='tf_data_func',
),
node(
  use_tf_data,
  inputs='tf_data_func',
  outputs=...
),
])

这里唯一的缺点是额外的复杂性。更多详情可以引用here .

关于tensorflow - 如何将 tf.data.Dataset 与 kedro 一起使用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63730066/

38

4

0

文章推荐： python - 使用最佳学习率导致随机猜测的准确性

文章推荐： firebase - 如何在 flutter 中捕获 StorageException

文章推荐： Git:新存储库，尝试从系统推送现有存储库时出错

javascript - 对焦或模糊时的射击功能(一起)
我想要的是能够在输入获得焦点或失去焦点时执行某些操作(两个事件)。我尝试了以下方法，但这按事件单独工作(单独编码时):仅在焦点上，或仅在失去焦点时。另外，我希望它尽可能跨平台(包括触摸设备)，这是
JavaFX TableView 使用分页过滤(一起)
我分别研究了TableView的Filtering和Pagination。过滤: this帖子帮助我满足了我的需要分页: this , this帖子也帮助了我我想像这样将它们组合在一起: 详情-
TDD 和 UML 一起
我是 TDD 方法的新手，所以我想知道是否有人经历过这种机智可以启发我一点。我想获得一些关于如何一起使用 UML 和 TDD 方法的线索。我已经习惯了:用 UML 设计 --> 生成骨架类(然后保持
Docker 入口点和 cmd 一起
我尝试使用入口点和 cmd 设置 Docker。 FROM debian:stretch RUN apt-get update && \ apt install gnupg ca-certificat
Java 泛型与类和接口(interface) - 一起
我想要一个 Class 对象，但我想强制它所代表的任何类扩展类 A 并实现接口(interface) B。我能做到: Class 或者: Class 但我不能两者兼得。有办法做到这一点吗？最佳答案
javascript - WebStorm + RubyMine 一起(？)
我是 Rubymine 的长期用户。 Rubymine 非常适合基于 html 的 Rails 应用程序，但我现在正在做更多的 SPA 客户端工作(例如 javascript/react)。我发现我真
jquery - Prototype 和 jQuery 一起？
我注意到我使用的某个脚本依赖于原型(prototype)。 (Lightbox 2) 它会与 jQuery 在同一页面上一起工作吗？有没有办法确保它们不冲突？最佳答案可以，但你需要采取 speci
Jquery dataTables 和 tablesorter 一起
我需要对表中显示的数据进行分页并通过 ajax 调用获取它 - 这是我通过使用具有以下配置的 dataTables 插件来完成的 - bServerSide : true; sAjaxSource :
c - 归档和 gtk 一起 - 可能吗？
我是 gtk 新手，所以想知道在 C 语言中归档和 gtk 是否可以一起使用？例如，我可以从 .txt 文件中读取，然后在相同的代码中使用 gtk 在标签或其他内容中显示它吗？如果是，怎么办？谢谢!
java - Bck2Brwsr 与 JavaFX 一起？
有没有人设法得到Bck2Brwsr最近与 Java 8/JavaFX 8 一起工作？有没有兼容的机会？我找不到太多关于它的信息，也没有一个好的起点。使用给定的 Maven archetype我遇到了几
python - openid 和 oauth 一起？
在我的应用程序中，用户通过 openid(与 stackoverflow 相同)登录/注销。我想通过 oauth 向第三方应用程序开放我的应用程序。如何创建我的 openid-consumer 应
java - 与 Spring 一起 hibernate
我在启动和运行 Hibernate 和 Spring 时遇到一些问题。我有一个网络服务器项目，它使用了其他几个具有持久实体的项目。我遇到的问题是，对于存储在 WEB-INF/libs 内的另一个 ja
java - @ControllerAdvice 异常处理与@ResponseStatus 一起
我有 @ControllerAdvice 类，它处理一组异常。我们还有一些其他异常，这些异常用 @ResponseStatus 注释进行注释。为了结合这两种方法，我们使用博客文章中描述的技术:http
android - Progressbar 与 asyncTask 一起
我想在屏幕上使用进度条而不是 progressDialog。我在我的 XML View 文件中插入了一个进度条，我想让它在加载时显示并在不加载时禁用它。所以我使用的是可见的，但它发生了，所以其余的
mysql - CONCAT 与 IF ELSE 一起？
CREATE TABLE `users` ( `id` int(11) AUTO_INCREMENT, `academicdegree` varchar(255),
sql - MySQL - Where IN 与 GROUP_CONCAT 一起
IN() 中使用的查询返回:1, 2。然而，整个查询返回 0 行，这是不可能的，因为它们存在。我在这里做错了什么？ SELECT DISTINCT li.auto_id FROM links
javascript - Jade 和 jQuery 一起
亲们，我如何在使用 Jade 生成的表单上实现 jQuery 样式？我想做的是美化表单并使它们可点击。我在 UI 方面很糟糕。期间。我如何在表单上实现这个可选择的方法？ http://jquer
php - Yii 和 Knockout 一起？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - auto 关键字和 smartpointers 一起？
我可以: auto o1 = new Content; 但不能: std::shared_ptr o1(new Content); std::unique_ptr o1(new Content); 我
java - Firebase 与 sqlite 一起
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu

首页

博学

6Ren·AI

商城

tensorflow - 如何将 tf.data.Dataset 与 kedro 一起使用？