python - DoFn 进程返回类型-6ren

python - DoFn 进程返回类型

转载作者：太空宇宙更新时间：2023-11-04 02:29:27

25

4

在 Beam 2.3.0 中，DoFn 进程 API 需要通过 yield 返回一个生成器，而在 Beam 2.4.0 中，从进程 API 返回一个对象，如字典工作正常。

编程模型从 2.3.0 到 2.4.0 有变化吗？对于大规模 Google Cloud Dataflow 处理，yield(生成器)是否优于从 DoFn 进程 API 返回对象(列表、字典)？

最佳答案

我的理解是你想返回一个可迭代对象。所以如果你返回一个字典，输出实际上是它的键列表。为了简单起见，我坚持只使用 yield。

关于python - DoFn 进程返回类型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49562470/

25

4

0

文章推荐： python - 如何制作与 CNN 具有相同输入的 RNN？

文章推荐：不能一个接一个地建立一个tcp连接

文章推荐： python - Pandas:自定义类作为具有多索引的列标题

文章推荐： c - 如何从一行输入中获取元组形式？

java - DoFn.Setup 和 DoFn.StartBundle 有什么区别？
这两个注释有什么区别？ DoFn.Setup用于准备处理元素束的实例的方法的注释。使用单词“bundle”，接受零个参数。 DoFn.StartBundle用于准备处理一批元素的实例的方法的注释。
python - DoFn 进程返回类型
在 Beam 2.3.0 中，DoFn 进程 API 需要通过 yield 返回一个生成器，而在 Beam 2.4.0 中，从进程 API 返回一个对象，如字典工作正常。编程模型从 2.3.0 到
java - Dataflow DoFn 中的数据存储查询在云中运行时会减慢管道速度
我正在尝试通过在 DoFn 步骤中查询数据存储来增强管道中的数据。来自类 CustomClass 的对象的字段用于对数据存储区表执行查询，返回的值用于增强对象。代码如下所示: public clas
DoFn 中的 HTTP 客户端
我想通过 DoFn 为在 Dataflow 上运行的 Apache Beam 管道发出 POST 请求。为此，我创建了一个客户端，它实例化了一个在 PoolingHttpClientConnecti
java - 如何对基于 KinesisRecord 的 DoFn 进行单元测试？
我正在开始一个从 AWS Kinesis 读取数据的 Beam 项目，因此我有一个简单的 DoFn 来接受 KinesisRecord 并记录内容。我想编写一个单元测试来运行这个 DoFn 并证明它有
google-cloud-dataflow - 非匿名 DoFn 中的访问端输入
如果我的类扩展了 DoFn，如何访问侧输入的元素？例如: 假设我有一个 ParDo 变换，如: PCollection data = myData.apply("Get data", Par
java - Apache 梁: What is the difference between DoFn and SimpleFunction?
在阅读有关使用 Java 处理 Apache Beam 中的流媒体元素时，我遇到了 DoFn然后穿过SimpleFunction . 这两个看起来都与我相似，我发现很难理解其中的区别。有人可以用外行
java - 将 TupleTag 传递给 DoFn 方法
我正在尝试从 DoFn 方法获得两个输出，以下是 Apache Beam programming guide 的示例基本上在示例中你传递一个 TupleTag 然后指定输出到哪里，这对我有用问题是我
java - 当前测试使用 MapState 的 DoFn 的最佳实践是什么
我正在编写一段使用 org.apache.beam.sdk.state.MapState 的数据流转换实现缓存功能。然而在介绍MapState ，单元测试开始功能障碍。异常显示:java.lang.U
google-cloud-dataflow - 如何修复 Dataflow 无法序列化我的 DoFn？
当我运行我的 Dataflow 管道时，我收到以下异常，提示我的 DoFn 无法序列化。我该如何解决？这是堆栈跟踪: Caused by: java.lang.IllegalArgumentExce
kotlin - 使用 Kotlin 的 Beam DoFn 中的泛型和方差
我正在使用 Apache Beam 和 Kotlin 构建一个简单的 ETL 管道，我正在尝试创建一种 Either类型: @DefaultCoder(SerializableCoder::class
google-cloud-dataflow - Python SDK中等效的Apache Beam : DoFn.安装程序
在Beam Python DoFn中进行昂贵的一次性初始化的推荐方法是什么？ Java SDK具有DoFn.Setup，但在Beam Python中似乎没有等效项。当前是DoFn初始化程序中atta
python - 如何在 python Beam 中制作通用的 Protobuf 解析器 DoFn？
上下文我正在使用一个流管道，它在 pubsub 中有一个 protobuf 数据源。我希望将此 protobuf 解析为 python 字典，因为数据接收器要求输入是字典的集合。我通过初始化proc
hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量
我知道有像 CRUNCH_BYTES_PER_REDUCE_TASK 或 mapred.reduce.tasks 这样的属性来设置 reducer 的数量。任何人都可以建议为需要更多时间执行的特定
python - 光束 : ReadAllFromText receive string or list from DoFn different behavior?
我有一个管道从 GCS 读取文件通过Pub\Sub , class ExtractFileNameFn(beam.DoFn): def process(self, element):
java - 如何将 DoFn PTransform 应用于 Apache Beam 中的 PCollectionTuple
我正在尝试将 PTransform 应用于 PCollectionTuple，但无法弄清楚编译器为什么会提示。我想这样做是为了将连接某些 csv 行所需的多个步骤抽象为单个 PTransform(P
google-cloud-dataflow - 在 Apache Beam 中添加 2 Dofn 之间的依赖关系
有什么方法可以在 2 个 Dofn 之间创建依赖关系，以便它等待第一个 Dofn 方法完成，然后运行第二个 Dofn 方法。只是想知道我们如何实现这个用例。最佳答案可能有一种更简洁的方法可以做到
google-cloud-storage - 使用 Cloud Dataflow 使用 DoFn 从 PubSub 写入 Google Cloud Storage
我正在尝试使用 Google Cloud Dataflow 将 Google PubSub 消息写入 Google Cloud Storage。我知道 TextIO/AvroIO 不支持流管道。但是，

首页

博学

6Ren·AI

商城

python - DoFn 进程返回类型