gpt4 book ai didi

java - 如何以最佳方式使用 Apache Beam 和 BigQueryIO 从多个 BigQuery 表中检索数据?

转载 作者:行者123 更新时间:2023-12-01 18:18:30 25 4
gpt4 key购买 nike

由此我明白了thread使用“.fromQuery”比“.from”更昂贵且更慢,但是如果我需要从多个表中检索数据该怎么办?

目前我正在使用“INNER JOIN”查询来执行此操作,但如何使用“.from”(或类似的)获得相同的结果?

最佳答案

由于您打算利用 BigQueryIO.Read.from() 来统一多个 Bigquery 表中的数据Apache Beam 方法,那么您也许可以执行单独的 PCollection从每个 Bigquery 表收集数据,然后应用加入逻辑,为表列提供一些匹配条件。

看看这个 example ,通过先前将输入数据转换为元组集合来连接特定 Pcollections 中的两个 Bigquery 表。

上述方法与CoGroupByKey非常相似。 Apache Beam SDK 中的转换方法作为管理 Pcollection 之间关系连接的主要概念。

阅读更多内容thread关于实现Left Join转换。

关于java - 如何以最佳方式使用 Apache Beam 和 BigQueryIO 从多个 BigQuery 表中检索数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60321984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com