gpt4 book ai didi

python - Apache Beam 中的 FlatMap 和 map

转载 作者:行者123 更新时间:2023-11-28 19:00:14 25 4
gpt4 key购买 nike

Apache Beam for python 中的 FlatMap 和 Map 函数是否并行运行?

(p
| 'GetJava' >> beam.io.ReadFromText(input)
| 'GetImports' >> beam.FlatMap(lambda line: startsWith(line, keyword))
| 'PackageUse' >> beam.FlatMap(lambda line: packageUse(line, keyword))
| 'TotalUse' >> beam.CombinePerKey(sum)
| 'Top_5' >> beam.transforms.combiners.Top.Of(5, by_value)
| 'write' >> beam.io.WriteToText(output_prefix)
)

最佳答案

管道中的并行化发生在 ReadFromText 转换之后。这会将目录分成多个文件,并将文件分成多个段。

每个段都在单个工作程序中连续处理,因此您的第一个 FlatMap 转换的输出将连续进入另一个 FlatMap - 但您将有很多实例FlatMap+FlatMap 在每个文件段上运行。

如果这回答了您的问题,请告诉我:)

关于python - Apache Beam 中的 FlatMap 和 map ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53441730/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com