gpt4 book ai didi

google-cloud-dataflow - 如何在数据流/光束中将 PCollection> 转换为 PCollection

转载 作者:行者123 更新时间:2023-12-01 23:12:39 32 4
gpt4 key购买 nike

我有一个用例,我需要从 DoFn 输出多个 T。所以 DoFn 函数返回一个 PCollection<List<T>> 。我想将它转换为 PCollection<T> 以便稍后在管道中我可以像这样过滤:

PCollection<T> filteredT = filterationResult.apply(Filter.byPredicate(p -> p.equals(T) == T));

目前我能想到的最好的方法是,而不是从 List<T> 函数返回 ParDo 我为每个项目返回具有相同键的 KV<String,List<T>> 。然后在管道中,我可以在下面进行组合结果:
filterationResult.apply("Group", GroupByKey.<String, List<T>>create())

或者我可以多次从 DoFn 调用 c.output(T) (其中 c 是传入的 ProcessContext 对象)?

最佳答案

您可以多次从 c.output(T) 调用 DoFn

还有一个库转换 Flatten.iterables() 但在这种情况下你不需要它。

关于google-cloud-dataflow - 如何在数据流/光束中将 PCollection<List<String>> 转换为 PCollection<String>,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44479254/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com