gpt4 book ai didi

python - 如何在 GCP 数据流中使用 python 管道代码读取 BigQuery 表

转载 作者:太空狗 更新时间:2023-10-30 02:53:47 26 4
gpt4 key购买 nike

有人可以分享在用 python 为 GCP 数据流编写的管道中读/写 bigquery 表的语法吗

最佳答案

在数据流上运行

首先,使用以下选项构造一个Pipeline 以使其在 GCP DataFlow 上运行:

import apache_beam as beam

options = {'project': <project>,
'runner': 'DataflowRunner',
'region': <region>,
'setup_file': <setup.py file>}
pipeline_options = beam.pipeline.PipelineOptions(flags=[], **options)
pipeline = beam.Pipeline(options = pipeline_options)

从 BigQuery 读取

用您的查询定义一个 BigQuerySource 并使用 beam.io.Read 从 BQ 读取数据:

BQ_source = beam.io.BigQuerySource(query = <query>)
BQ_data = pipeline | beam.io.Read(BQ_source)

写入 BigQuery

写入 bigquery 有两种选择:

  • 使用 BigQuerySinkbeam.io.Write:

    BQ_sink = beam.io.BigQuerySink(<table>, dataset=<dataset>, project=<project>)
    BQ_data | beam.io.Write(BQ_sink)
  • 使用beam.io.WriteToBigQuery:

    BQ_data | beam.io.WriteToBigQuery(<table>, dataset=<dataset>, project=<project>)

关于python - 如何在 GCP 数据流中使用 python 管道代码读取 BigQuery 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48386148/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com