gpt4 book ai didi

apache-flink - Apache 弗林克 : How can I create a parallel JDBC InputFormat?

转载 作者:行者123 更新时间:2023-12-04 04:45:31 25 4
gpt4 key购买 nike

有一个名为flink-jdbc的模块只支持基于非并行元组类型的JDBC InputFormat

为了为 JDBC 使用并行的 InputFormat,似乎需要通过实现接口(interface)来自定义:org.apache.flink.core.io .InputSplit.

那么在我的例子中,我如何自定义实现 JdbcInputSplit 以从数据库并行查询数据?

最佳答案

Apache Flink 不提供并行的 JDBC InputFormat。所以你需要自己实现一个。您可以使用非并行 JDBC InputFormat 作为起点。

为了并行查询数据库,您需要将查询拆分为多个查询,覆盖结果集的非重叠(理想情况下大小相同)部分。这些较小的查询中的每一个都将包装在 InputSplit 中并传递给输入格式的并行实例。

拆分查询是具有挑战性的部分,因为它取决于查询和数据。所以你需要一些元信息来提出好的拆分。您可能希望将此委托(delegate)给输入格式的用户,并请求一组查询而不是单个查询。您还应该检查查询的数据库是否比单个查询更好地处理并行请求。

关于apache-flink - Apache 弗林克 : How can I create a parallel JDBC InputFormat?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34959147/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com