google-bigquery - 如何捕获 BigQueryIO.Write 抛出的任何异常并挽救输出失败的数据？-6ren

google-bigquery - 如何捕获 BigQueryIO.Write 抛出的任何异常并挽救输出失败的数据？

转载作者：行者123 更新时间：2023-12-04 18:57:50

28

4

我想从 Cloud Pub/Sub 读取数据并使用 Cloud Dataflow 将其写入 BigQuery。每个数据都包含一个表 ID，数据本身将保存在其中。

写入 BigQuery 失败的因素有多种:

表 ID 格式错误。

数据集不存在。

数据集不允许管道访问。

网络故障。

当其中一个失败发生时，流式作业将重试该任务并停止。我尝试使用 WriteResult.getFailedInserts()为了抢救坏数据，避免卡顿，但效果不佳。有什么好办法吗？

这是我的代码:

public class StarterPipeline {
  private static final Logger LOG = LoggerFactory.getLogger(StarterPipeline.class);

  public class MyData implements Serializable {
    String table_id;
  }

  public interface MyOptions extends PipelineOptions {
    @Description("PubSub topic to read from, specified as projects/<project_id>/topics/<topic_id>")
    @Validation.Required
    ValueProvider<String> getInputTopic();
    void setInputTopic(ValueProvider<String> value);
  }

  public static void main(String[] args) {
    MyOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().as(MyOptions.class);

    Pipeline p = Pipeline.create(options);

    PCollection<MyData> input = p
        .apply("ReadFromPubSub", PubsubIO.readStrings().fromTopic(options.getInputTopic()))
        .apply("ParseJSON", MapElements.into(TypeDescriptor.of(MyData.class))
            .via((String text) -> new Gson().fromJson(text, MyData.class)));
    WriteResult writeResult = input
        .apply("WriteToBigQuery", BigQueryIO.<MyData>write()
            .to(new SerializableFunction<ValueInSingleWindow<MyData>, TableDestination>() {
              @Override
              public TableDestination apply(ValueInSingleWindow<MyData> input) {
                MyData myData = input.getValue();
                return new TableDestination(myData.table_id, null);
              }
            })
            .withSchema(new TableSchema().setFields(new ArrayList<TableFieldSchema>() {{
              add(new TableFieldSchema().setName("table_id").setType("STRING"));
            }}))
            .withFormatFunction(new SerializableFunction<MyData, TableRow>() {
              @Override
              public TableRow apply(MyData myData) {
                return new TableRow().set("table_id", myData.table_id);
              }
            })
            .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED)
            .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND)
            .withFailedInsertRetryPolicy(InsertRetryPolicy.neverRetry()));
    writeResult.getFailedInserts()
        .apply("LogFailedData", ParDo.of(new DoFn<TableRow, TableRow>() {
          @ProcessElement
          public void processElement(ProcessContext c) {
            TableRow row = c.element();
            LOG.info(row.get("table_id").toString());
          }
        }));

    p.run();
  }
}

最佳答案

在管道定义中写入输出时，没有简单的方法可以捕获异常。我想你可以通过编写自定义 PTransform 来做到这一点。对于 BigQuery。但是，在 Apache Beam 中无法原生实现。我还建议不要这样做，因为它会破坏 Cloud Dataflow 的自动重试功能。

在您的代码示例中，您将失败的插入重试策略设置为从不重试。您可以将策略设置为始终重试。这仅在间歇性网络故障( 第 4 个要点 )之类的情况下有效。

.withFailedInsertRetryPolicy(InsertRetryPolicy.alwaysRetry())

如果表 ID 格式不正确( 第一个要点 )，则 CREATE_IF_NEEDED create disposition 配置应允许 Dataflow 作业自动创建新表而不会出错，即使表 ID 不正确。

如果数据集不存在或数据集存在访问权限问题( 第二和第三个要点 )，那么我的观点是流作业应该停止并最终失败。没有人工干预，在任何情况下都无法进行。

关于google-bigquery - 如何捕获 BigQueryIO.Write 抛出的任何异常并挽救输出失败的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48002114/

28

4

0

文章推荐： airflow - 安排持续 Airflow DAG 运行

文章推荐： networking - 了解windows路由表

文章推荐： flowtype - 需要帮助理解一些 Flow 类型的语法

java - 在 Java 中，为什么 FileWriter 抛出 IOException 而 FileOutputStream 抛出 FileNotFoundException 的原因完全相同
来自 java docs 公共(public) FileWriter(String fileName) 抛出 IOException 抛出: IOException - 如果指定的文件存在但它是目录而
Cassandra 抛出 NoHostAvailableException
我使用以下代码将我的 .net 客户端(基于 CQL)连接到 3 节点 Cassandra 集群。我以 30 条记录/秒的速度(从 RabbitMQ)获取数据，并且它们顺利地存储在 cassandra
Java 抛出 NoSuchElementException
如果在读取文件时缺少字段，我应该捕获 NoSuchElementException。如果缺少一个字段，我只需要跳到文件的下一行。我的问题是，我在哪里实现我的 try/catch 代码来做到这一点？这是
DotnetopenAuth 抛出“ProtocolException
我正在尝试使用 ASP.NET MVC 实现 OpeinID 登录。我正在尝试按照 http://blog.nerdbank.net/2008/04/add-openid-login-support-
java - 抛出 SAXException
学习使用 Java 进行 xml 解析，并且正在编写一个测试程序来尝试各种东西。所有测试 System.out.println() 都是我在控制台中所期望的，除了 childElement 返回 [n
java - 抛出 ClassCastException
我正在尝试使用 SwingUtilities 创建 JFrame Thread tt = new Thread(new Runnable() { public void run
C# % 抛出 DivideByZeroException
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
c# - 抛出 AmbiguousMatchException
我写了这段代码: MethodInfo method2 = typeof(IntPtr).GetMethod( "op_Explicit", Bind
Java 抛出 InputMismatchException
我开始学习 Java，并且正在根据书本做一些练习。在执行此操作时，我遇到了以下错误:线程“main”java.util.InputMismatchException 中出现异常。我正在编写一个简单的程
Java 抛出 NumberFormatException
我有一个文本文件，其中前两行是整数 m 和 n，然后有 m 行，每行都有 n 管道分隔值。我编写了一个程序，读取文件并使用文件中的值创建 m*n 数组，它工作了无数次，然后突然，使用相同的代码，使用相
java - 抛出 NoSuchBeanDefinitionException
所以我尝试使用在另一个类中生成的 bean 以在主应用程序中使用 package com.simon.spring.basics.properties; import org.spri
java - 抛出 InstantiationException
我还没有完成这个应用程序，但我希望在我的手机上看到它的样子。但是，它会强制关闭并引发 InstantiationException。 logcat 异常: 09-19 20:13:47.987: D/
swift - UIHostingController 抛出
我想从 UIViewController 加载一个基于 SwiftUI 的 View ，该 View 读取包本地的 json。仅 swiftUI 项目中的代码和绑定(bind)工作正常，当我利用 UI
java - 抛出 SocketTimeoutException
'java.net.SocketTimeoutException:连接超时' 循环一段时间后我收到此错误。为什么我会收到 SocketTimeoutException？我该如何修复这个错误？ @Ove
c# - 抛出 ArgumentNullException
当有 null 值时抛出 ArgumentNullException() 是个好主意吗？ This thread 没有提到在 null 上抛出的最明显的异常。谢谢最佳答案 ArgumentNull
c# - 抛出 NullReferenceException？
我得到这个异常: NullReferenceException Object reference not set to an instance of an object at Namespace
java - 抛出 UnsupportedOperationException
所以其中一个方法的描述如下: public BasicLinkedList addToFront(T data) This operation is invalid for a sorted list
JavaDocs 抛出 IllegalArgumentException
我正在使用 Intellij Idea，当我去生成 JavaDocs(通过工具 -> 生成 JavaDoc)时，我抛出了一个 IllegealArgumentException，没有关于发生了什么问题
C++ 程序意外阻塞/抛出
我正在学习 C++ 中的互斥锁，但以下代码(摘自 N. Josuttis 的“C++ 标准库”)有问题。我不明白为什么它会阻塞/抛出除非我在主线程中添加this_thread::sleep_for(
JavaFX 抛出 ArrayIndexOutOfBoundsException
我正在试验 JavaFX 标签和组，通过鼠标拖动将它们移动到屏幕上。新节点从一些线程添加到动画组。但是，有时我会突然看到以下异常 - 我假设，当某些节点重叠时。但是不知道是什么问题……因为不涉及我的代

首页

博学

6Ren·AI

商城

google-bigquery - 如何捕获 BigQueryIO.Write 抛出的任何异常并挽救输出失败的数据？