java - BigQueryIO.writeTableRows() 中的 GroupByKey 节点不发出元素-6ren

java - BigQueryIO.writeTableRows() 中的 GroupByKey 节点不发出元素

转载作者：行者123 更新时间：2023-11-30 05:32:16

27

4

我的流数据流管道从 PubSub 提取数据，不会写入 BigQuery，也不会记录任何错误。这些元素进入节点“Write to BigQuery/StreamingInserts/StreamingWriteTables/Reshuffle/GroupByKey”:

它是这样隐式创建的:

PCollection<TableRow> rows = ...;
rows.apply("Write to BigQuery",
    BigQueryIO.writeTableRows().to(poptions.getOutputTableName())
        .withSchema(...)
        .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND)
        .withMethod(BigQueryIO.Write.Method.STREAMING_INSERTS)
        .withFailedInsertRetryPolicy(InsertRetryPolicy.alwaysRetry())
        .withExtendedErrorInfo());

但元素永远不会离开它，或者至少不会在系统延迟(现在为 45 分钟)内。这应该是一个流作业 - 我怎样才能使它刷新并写入数据？这是光束版本 2.13.0。谢谢。

更新 - 将数据写入 BigQuery 的步骤的 StackDriver 日志(无错误):

我还可以补充一点，如果我在云中使用 DirectRunner(但仅适用于少量数据)，并且如果我使用 BigQuery 的 java 接口(interface)逐行插入(但这至少是两个订单)，则这可以工作数量级太慢而无法开始)。

最佳答案

您可以尝试将重试策略更改为 InsertRetryPolicy.retryTransientErrors()。如果存在某些配置错误(例如 BigQuery 表不存在或无权访问它)，alwaysRetry() 策略将导致管道看起来停止进展。失败总是会重试，因此它们永远不会被报告为失败。

您还可以在 Stackdriver Logging 中检查工作线程日志。通过单击步骤日志 Pane 右上角的“Stackdriver”链接来执行此操作。完整说明位于 Dataflow logging documentation .

关于java - BigQueryIO.writeTableRows() 中的 GroupByKey 节点不发出元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57278889/

27

4

0

文章推荐： javascript:jQuery replaceWith() 不遵守 delay()

文章推荐： javascript - 图像已正确上传但在刷新之前未在 View 中更新

文章推荐： javascript - 显示 <顶点 :pageMessages> in javascript

文章推荐： javascript - 如何禁止 javascript 仅从 iPad 设备运行？

java - BigQueryIO.writeTableRows() 中的 GroupByKey 节点不发出元素
我的流数据流管道从 PubSub 提取数据，不会写入 BigQuery，也不会记录任何错误。这些元素进入节点“Write to BigQuery/StreamingInserts/StreamingW
java - Apache Beam，BigQueryIO.WriteTableRows() 上的 NoSuchMethodError？
我最近将现有管道从数据流 1.x 升级到数据流 2.x，我看到一个对我来说没有意义的错误。我会将相关代码放在下面，然后包括我看到的错误。 // This is essentially the fina

首页

博学

6Ren·AI

商城

java - BigQueryIO.writeTableRows() 中的 GroupByKey 节点不发出元素