- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我知道有像 CRUNCH_BYTES_PER_REDUCE_TASK 或 mapred.reduce.tasks 这样的属性来设置 reducer 的数量。
任何人都可以建议为需要更多时间执行的特定 Dofn 配置/覆盖默认 reducer 。
最佳答案
通过使用 ParallelDoOptions
并将其作为第四个参数传递给 parallelDo
,可以为特定的 DoFn 配置 Reducer,如下所示:
ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks", "64").build();
并将其作为第四个参数传递给 parallelDo
。
关于hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41280899/
这两个注释有什么区别? DoFn.Setup用于准备处理元素束的实例的方法的注释。 使用单词“bundle”,接受零个参数。 DoFn.StartBundle用于准备处理一批元素的实例的方法的注释。
在 Beam 2.3.0 中,DoFn 进程 API 需要通过 yield 返回一个生成器,而在 Beam 2.4.0 中,从进程 API 返回一个对象,如字典工作正常。 编程模型从 2.3.0 到
我正在尝试通过在 DoFn 步骤中查询数据存储来增强管道中的数据。来自类 CustomClass 的对象的字段用于对数据存储区表执行查询,返回的值用于增强对象。 代码如下所示: public clas
我想通过 DoFn 为在 Dataflow 上运行的 Apache Beam 管道发出 POST 请求。 为此,我创建了一个客户端,它实例化了一个在 PoolingHttpClientConnecti
我正在开始一个从 AWS Kinesis 读取数据的 Beam 项目,因此我有一个简单的 DoFn 来接受 KinesisRecord 并记录内容。我想编写一个单元测试来运行这个 DoFn 并证明它有
如果我的类扩展了 DoFn,如何访问侧输入的元素? 例如: 假设我有一个 ParDo 变换,如: PCollection data = myData.apply("Get data", Par
在阅读有关使用 Java 处理 Apache Beam 中的流媒体元素时,我遇到了 DoFn然后穿过SimpleFunction . 这两个看起来都与我相似,我发现很难理解其中的区别。 有人可以用外行
我正在尝试从 DoFn 方法获得两个输出,以下是 Apache Beam programming guide 的示例 基本上在示例中你传递一个 TupleTag 然后指定输出到哪里,这对我有用问题是我
我正在编写一段使用 org.apache.beam.sdk.state.MapState 的数据流转换实现缓存功能。然而在介绍MapState ,单元测试开始功能障碍。异常显示:java.lang.U
当我运行我的 Dataflow 管道时,我收到以下异常,提示我的 DoFn 无法序列化。我该如何解决? 这是堆栈跟踪: Caused by: java.lang.IllegalArgumentExce
我正在使用 Apache Beam 和 Kotlin 构建一个简单的 ETL 管道,我正在尝试创建一种 Either类型: @DefaultCoder(SerializableCoder::class
在Beam Python DoFn中进行昂贵的一次性初始化的推荐方法是什么? Java SDK具有DoFn.Setup,但在Beam Python中似乎没有等效项。 当前是DoFn初始化程序中atta
上下文 我正在使用一个流管道,它在 pubsub 中有一个 protobuf 数据源。我希望将此 protobuf 解析为 python 字典,因为数据接收器要求输入是字典的集合。我通过初始化proc
我知道有像 CRUNCH_BYTES_PER_REDUCE_TASK 或 mapred.reduce.tasks 这样的属性来设置 reducer 的数量。 任何人都可以建议为需要更多时间执行的特定
我有一个管道从 GCS 读取文件通过Pub\Sub , class ExtractFileNameFn(beam.DoFn): def process(self, element):
我正在尝试将 PTransform 应用于 PCollectionTuple,但无法弄清楚编译器为什么会提示。 我想这样做是为了将连接某些 csv 行所需的多个步骤抽象为单个 PTransform(P
有什么方法可以在 2 个 Dofn 之间创建依赖关系,以便它等待第一个 Dofn 方法完成,然后运行第二个 Dofn 方法。 只是想知道我们如何实现这个用例。 最佳答案 可能有一种更简洁的方法可以做到
我正在尝试使用 Google Cloud Dataflow 将 Google PubSub 消息写入 Google Cloud Storage。我知道 TextIO/AvroIO 不支持流管道。但是,
我是一名优秀的程序员,十分优秀!