gpt4 book ai didi

java - 想要并行运行 Apache Beam Pipeline

转载 作者:行者123 更新时间:2023-12-02 09:53:06 29 4
gpt4 key购买 nike

我的问题陈述是

1。需要从多个第三方源获取数据/执行某些操作/将数据存储在某个位置

2。我需要为每个源创建专用的 Beam 管道

由于我是 Beam 新手,我的问题是

1。如果我为不同的第三方源创建单独的管道,这会好吗还是会导致一些问题?

2。如果设计正确,那么如果我在一台机器上运行 run beam-runners-direct-java ,它会像并行处理一样吗?

最佳答案

Beam 的最终计划是支持许多不同的源(最终它们甚至可以是跨语言的)。

对于你的问题,在单台机器上并行多个beam-runner-direct-java不会引起问题。事实上,所有验证测试都使用直接运行器,并且测试确实并行运行。

有一点不清楚的是,您必须创建多个管道(每个第三方源一个)的主要原因是什么?如果原因是让事物并行运行以获得更高的吞吐量,我(有偏见的观点)认为这不是一个好主意。从长远来看,即使我们引入优化并行源的功能,您也无法从该选项中受益。

关于java - 想要并行运行 Apache Beam Pipeline,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56173321/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com