gpt4 book ai didi

google-bigquery - 谷歌云数据流中的动态分区?

转载 作者:行者123 更新时间:2023-12-04 20:01:43 24 4
gpt4 key购买 nike

我正在使用数据流来处理存储在 GCS 中的文件并写入 Bigquery 表。以下是我的要求:

  • 输入文件包含事件记录,每条记录属于一个事件类型;
  • 需要按事件类型对记录进行分区;
  • 对于每个 eventType 输出/写入记录到相应的 Bigquery 表,每个 eventType 一个表。
  • 每个批处理输入文件中的事件各不相同;

  • 我正在考虑应用诸如“groupByKey”和“partition”之类的转换,但是似乎我必须在开发时知道确定分区所需的事件数量(和类型)。

    你们有一个好主意来显着地进行分区吗?意思是可以在运行时确定分区?

    最佳答案

    为什么不将所有内容加载到单个“原始”bigquery 表中,然后使用 BigQuery API 确定不同数量的事件并将每个事件类型导出到其自己的表(例如,通过 https://cloud.google.com/bigquery/bq-command-line-tool#createtablequery )或 API 调用?

    如果您的输入格式很简单,您可以在不使用数据流的情况下做到这一点,这可能会更具成本效益。

    关于google-bigquery - 谷歌云数据流中的动态分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29174760/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com