google-cloud-platform - BigQueryIO - 流和 FILE

google-cloud-platform - BigQueryIO - 流和 FILE_LOADS 的写入性能

转载作者：行者123 更新时间：2023-12-04 21:32:02

25

4

我的管道:Kafka -> 数据流流 (Beam v2.3) -> BigQuery

鉴于低延迟对我来说并不重要，我使用 FILE_LOADS降低成本，像这样:

BigQueryIO.writeTableRows()
  .withJsonSchema(schema)
  .withWriteDisposition(WriteDisposition.WRITE_APPEND)
  .withCreateDisposition(CreateDisposition.CREATE_IF_NEEDED)
  .withMethod(Method.FILE_LOADS)
  .withTriggeringFrequency(triggeringFrequency)      
  .withCustomGcsTempLocation(gcsTempLocation)
  .withNumFileShards(numFileShards) 
  .withoutValidation()
  .to(new SerializableFunction[ValueInSingleWindow[TableRow], TableDestination]() {
    def apply(element: ValueInSingleWindow[TableRow]): TableDestination = {
      ...
    }
  }

这个数据流步骤在管道中引入了更大的延迟，因此它无法跟上 Kafka 吞吐量(小于 50k 事件/秒)，即使是 40 n1-standard-s4 worker 。如下面的屏幕截图所示，这一步的系统延迟非常大(接近管道正常运行时间)，而 Kafka 系统延迟只有几秒钟。

System lag introduced by BigQueryIO.Write

如果我理解正确，Dataflow 会将元素写入 gcsTempLocation 中的 numFileShards，并且每个触发频率都会启动加载作业以将它们插入 BigQuery。例如，如果我选择 5 分钟的触发频率，我可以看到(使用 bq ls -a -j )所有加载作业需要不到 1 分钟才能完成。但是这一步仍然引入了越来越多的延迟，导致 Kafka 消耗的元素越来越少(感谢 bcackpressure)。增加/减少 numFileShards 和 triggeringFrequency 不能解决问题。

我没有手动指定任何窗口，我只是默认一个。文件未在 gcsTempLocation 中累积。

知道这里出了什么问题吗？

最佳答案

您提到您没有明确指定窗口，这意味着默认情况下 Dataflow 将使用“全局窗口”。 windowing documentation包含此警告:

Caution: Dataflow's default windowing behavior is to assign all elements of a PCollection to a single, global window, even for unbounded PCollections. Before you use a grouping transform such as GroupByKey on an unbounded PCollection, you must set a non-global windowing function. See Setting Your PCollection's Windowing Function.

If you don't set a non-global windowing function for your unbounded PCollection and subsequently use a grouping transform such as GroupByKey or Combine, your pipeline will generate an error upon construction and your Dataflow job will fail.

You can alternatively set a non-default Trigger for a PCollection to allow the global window to emit "early" results under some other conditions.

您的管道似乎没有进行任何显式分组，但我想知道通过 BigQuery 写入的内部分组是否会导致问题。

如果您的下游 DropInputs，您能在 UI 中看到吗？已经收到任何元素？如果没有，这表明数据在上游 BigQuery 步骤中被阻塞。

关于google-cloud-platform - BigQueryIO - 流和 FILE_LOADS 的写入性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49367809/

25

4

0

文章推荐：合金在过河时的唯一对一个量词

文章推荐： sql - 如何使用单个Update查询更新列中的所有值？

文章推荐： css-transitions - css 过渡在移动版 chrome 中不起作用

java - BigQueryIO 读取获取 TableSchema
我想做的是读取一个现有表并生成一个新表，该表具有与原始表相同的架构以及一些额外的列(从原始表的某些列计算得出)。可以在不通知我的情况下增加原始表架构(我在数据流作业中使用的字段不会更改)，因此我希望始
java - BigQueryIO.Read 查询与作业 : Query
我已经研究数据流/bigquery有一段时间了，但我仍然无法理解一些基本的事情，即何时使用某种类型的方法来查询表。 BigQueryIO.Read 的单行查询选项是: + 简短， + 适合大型结果，在
java - Apache Beam - BigQueryIO 读取投影
我有一个从 BigQuery 表读取数据的数据流管道。但是，在读取数据时，除了使用 read(SerializableFunction) 读取所有记录外别无选择。或 readTableRows()方法
java - BigQueryIO.Read.fromQuery 位于欧盟的数据集出现问题
我在查询位于欧盟的 BigQuery 表/数据集时遇到问题。此处报告了该问题:https://github.com/GoogleCloudPlatform/DataflowJavaSDK/issues
java - BigQueryIO.Write withJsonSchema 的序列化
我的 Beam 管道中有一个 BigQueryIO.Write 阶段，它是通过调用 .withJsonSchema(String) 构建的: inputStream.apply( "save-
google-bigquery - 如何捕获 BigQueryIO.Write 抛出的任何异常并挽救输出失败的数据？
我想从 Cloud Pub/Sub 读取数据并使用 Cloud Dataflow 将其写入 BigQuery。每个数据都包含一个表 ID，数据本身将保存在其中。写入 BigQuery 失败的因素有多
google-bigquery - BigQueryIO.read().fromQuery 性能缓慢
我注意到的一件事是 BigQueryIO.read().fromQuery() 的性能比 Apache Beam 中的 BigQueryIO.read().from() 的性能要慢得多。为什么会发生这
java - BigQueryIO.writeTableRows() 中的 GroupByKey 节点不发出元素
我的流数据流管道从 PubSub 提取数据，不会写入 BigQuery，也不会记录任何错误。这些元素进入节点“Write to BigQuery/StreamingInserts/StreamingW
google-cloud-platform - BigQueryIO - 流和 FILE_LOADS 的写入性能
我的管道:Kafka -> 数据流流 (Beam v2.3) -> BigQuery 鉴于低延迟对我来说并不重要，我使用 FILE_LOADS降低成本，像这样: BigQueryIO.writeTab
java - Apache Beam，BigQueryIO.WriteTableRows() 上的 NoSuchMethodError？
我最近将现有管道从数据流 1.x 升级到数据流 2.x，我看到一个对我来说没有意义的错误。我会将相关代码放在下面，然后包括我看到的错误。 // This is essentially the fina
google-cloud-dataflow - 使用 BigQueryIO 写入大型(>20KB)记录
这在文档中并不清楚，但看起来像 BigQueryIO.write执行流式写入，这又是limits the row size to 20KB)记录，我们在Stack Overflow上找到一个类似的问题
google-cloud-dataflow - 使用 withTemplateCompatibility 的 BigQueryIO 读取性能
Apache Beam 2.1.0 存在从 BigQuery 读取的模板管道的错误，这意味着它们只能执行一次。更多详情请点击 https://issues.apache.org/jira/browse
java - Google Cloud Dataflow TextIO 到 BigQueryIO 作业无法启动
我收到以下控制台日志，并且进程停止 com.google.cloud.dataflow.sdk.runners.DataflowPipelineRunner fromOptions INFO: Pip
google-bigquery - Apache 光束 : Update BigQuery table row with BigQueryIO
我们使用以下代码将记录写入 BigQuery: BigQueryIO.writeTableRows() .to("table") .withCreateDisposition(BigQ
java - 如何以最佳方式使用 Apache Beam 和 BigQueryIO 从多个 BigQuery 表中检索数据？
由此我明白了thread使用“.fromQuery”比“.from”更昂贵且更慢，但是如果我需要从多个表中检索数据该怎么办？目前我正在使用“INNER JOIN”查询来执行此操作，但如何使用“.fr
google-bigquery - 当您在数据流中使用 `BigQueryIO` 与 `fromTable` SELECT * .. `fromQuery("时，.")` 有区别吗？
当您需要在数据流作业中从 bigquery 中的一个或多个表中读取所有数据时，我会说有两种方法。第一种方法是将 BigQueryIO 与 from 一起使用，它读取有问题的表，第二种方法是使用 fro
google-cloud-dataflow - 将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作
有没有办法将侧输入应用于 Apache Beam 中的 BigQueryIO.read() 操作。举例来说，我在 PCollection 中有一个值，我想在查询中使用它来从 BigQuery 表中获
java - BigQueryIO : Query configured via options, 但 "Value only available at runtime"
Apache 光束2.9.0 我已经建立了一个管道，从 BigQuery 中提取数据并对其进行一系列转换。这些选项使用 ValueProvider 附加了开始日期。 : ValueProvider g
java - Google Cloud Dataflow BigQueryIO.Write 发生未知错误(http 代码 500)
是否有人与我遇到同样的问题，即 Google Cloud Dataflow BigQueryIO.Write 发生未知错误(http 代码 500)？我使用Dataflow处理四月、五月、六月的一些
google-cloud-platform - BigQueryIO - 不能将 DynamicDestination 与 CREATE_IF_NEEDED 一起用于无界 PCollection 和 FILE_LOADS
我的工作流程:KAFKA -> 数据流流 -> BigQuery 鉴于低延迟对我来说并不重要，我使用 FILE_LOADS 来降低成本。我将 BigQueryIO.Write 与 DynamicDes

首页

博学

6Ren·AI

商城

google-cloud-platform - BigQueryIO - 流和 FILE_LOADS 的写入性能