- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个运行在 Google Dataflow 上的 Apache Beam 管道,它从 GCS 读取 gzip 压缩的 JSON 数据,转换它们,并将它们加载到 Google BigQuery。该管道在一批样本数据上按预期工作,但是当我尝试在整个数据(~2.4M 文件)上运行它时,它有时会引发一个令人困惑的错误,在几次发生后会破坏该过程。
错误是:
Error message from worker: Traceback (most recent call last): File"apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1095, inapache_beam.runners.common._OutputProcessor.process_outputs File"/usr/local/lib/python3.7/site-packages/apache_beam/io/filebasedsource.py",line 380, in process source =list(source.split(float('inf')))[0].source IndexError: list index outof range During handling of the above exception, another exceptionoccurred: Traceback (most recent call last): File"/usr/local/lib/python3.7/site-packages/dataflow_worker/batchworker.py",line 647, in do_work work_executor.execute() File"/usr/local/lib/python3.7/site-packages/dataflow_worker/executor.py",line 179, in execute op.start() File"dataflow_worker/shuffle_operations.py", line 63, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 64, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 79, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 80, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 84, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "apache_beam/runners/worker/operations.py", line 332, inapache_beam.runners.worker.operations.Operation.output File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "dataflow_worker/shuffle_operations.py", line 261, indataflow_worker.shuffle_operations.BatchGroupAlsoByWindowsOperation.processFile "dataflow_worker/shuffle_operations.py", line 268, indataflow_worker.shuffle_operations.BatchGroupAlsoByWindowsOperation.processFile "apache_beam/runners/worker/operations.py", line 332, inapache_beam.runners.worker.operations.Operation.output File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "apache_beam/runners/worker/operations.py", line 670, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/worker/operations.py", line 671, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/common.py", line 963, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 1030, inapache_beam.runners.common.DoFnRunner._reraise_augmented File"apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1122, inapache_beam.runners.common._OutputProcessor.process_outputs File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "apache_beam/runners/worker/operations.py", line 670, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/worker/operations.py", line 671, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/common.py", line 963, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 1030, inapache_beam.runners.common.DoFnRunner._reraise_augmented File"apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1122, inapache_beam.runners.common._OutputProcessor.process_outputs File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "apache_beam/runners/worker/operations.py", line 670, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/worker/operations.py", line 671, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/common.py", line 963, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 1045, inapache_beam.runners.common.DoFnRunner._reraise_augmented File"/usr/local/lib/python3.7/site-packages/future/utils/init.py",line 446, in raise_with_traceback raise exc.with_traceback(traceback)File "apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1095, inapache_beam.runners.common._OutputProcessor.process_outputs File"/usr/local/lib/python3.7/site-packages/apache_beam/io/filebasedsource.py",line 380, in process source =list(source.split(float('inf')))[0].source IndexError: list index outof range [while running 'GetData/ReadAllFiles/ReadRange']
GetData
:
files = (p
| 'Init' >> beam.Create([files_pattern])
| 'GetData' >> ReadAllFromText())
哪里
p
是管道对象和
files_pattern
是形式为
gs://{bucket}/{prefix}/*.json.gz
的球体.
最佳答案
我建议使用 Dataflow Shuffle .数据保存在 Dataflow 后端中,而不是将 shuffle 数据保存在 VM 的永久性磁盘中。由于错误消息提到索引超出范围,并且从注释中可以看出,作业使用较少的数据运行,结果是内存或存储空间不足。
此外,请记住,您可以使用 Dataflow Google provided templates .请记住,这些模板使用的是 Java 而不是 Python。模板之一是 GCS Text to BigQuery。
关于python - 在 GCS 上超过 240 万个文件的 Google Dataflow 上运行管道时,Apache Beam 的 FileBasedSource 上出现令人困惑的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63009565/
我正在使用 Apache Beam 从 Kafka 读取数据。由于乱序写入 Kafka,我想使用有效负载中的事件时间戳而不是默认的 LogAppendTime。 我看到了一个解决方案 Apache B
我有一个通用输入请求,其中包含需要转换和保存的输入。如果需要转换生成的输出,我会为它实现一个新的处理器(转换器)。 class Request { Input input; Transform
我已经在 Apache Beam 上工作了几天。我想快速迭代我正在工作的应用程序,并确保我正在构建的管道没有错误。在 Spark 中我们可以使用 sc.parallelise当我们应用一些 Actio
我有一个简单的波束管道,它使用带有 tf 变换的通用句子编码器获取一些文本并获得嵌入。与使用 tf 1 制作的演示非常相似。 import tensorflow as tf import apache
使用Apache Beam丰富数据时,对每个数据项都进行一次API调用会不会出错? (我是 Apache Beam 的新手) 最佳答案 不,但您可以批处理 API 调用以获得更好的性能。查看 this
我的任务是为一款应用添加支持,以便通过 Android 上的“NFC”在设备之间传输大型数据文件(数十兆字节)。 我知道 Android 上真正的 NFC 非常慢,但我知道 ICS 支持将批量数据传输
NFC:S-beam 和 Android beam 有什么区别?有人可以解释 Wifi-Direct/Bluetooth 激活和传输数据的确切流程吗? 最佳答案 在 stackexchanged 上解
我正在使用 Beam 管道计算流式数据的电话号码频率。我使用的滑动窗口每 5 分钟重复一次,总周期为 15 分钟,因此正如预期的那样,对于某些输入,当输入落在多个窗口中时,我会得到多个输出。 计算出现
输入的PCollection是http requests,是一个有界数据集。我想在 ParDo 中进行异步 http 调用(Java),解析响应并将结果放入输出 PCollection 中。我的代码如
输入的PCollection是http requests,是一个有界数据集。我想在 ParDo 中进行异步 http 调用(Java),解析响应并将结果放入输出 PCollection 中。我的代码如
在使用 PAssert 为我的光束管道编写单元测试时,管道输出对象很好,但在与以下断言错误进行比较时测试失败: java.lang.AssertionError: Decode pubsub mess
我正在尝试从 here 运行 Wordcount 演示与 Samza Runner。这是我的build.gradle plugins { id 'eclipse' id 'java' id
我正在尝试使用 Beam 和 Flink runner 设置流处理管道。 Flink 是一个本地 session 部署,包含以下 docker-compose 文件: version: "3" ser
在尝试编译我的 Phoenix 项目的发行版时,出现以下错误: $ mix release .... ==> Generated .appup for myapp 0.0.1 -> 0.0.2 ===
我正在尝试使用 Apache beam-dataflow 连接到安装在云实例中的配置单元实例。当我运行它时,出现以下异常。当我使用 Apache Beam 访问此数据库时,就会发生这种情况。我见过很多
我正在使用 zsh,并且我已经安装了 gcloud,以便通过我的 Mac 上的本地终端与 GCP 进行交互。我遇到了这个错误“zsh:找不到匹配项:apache-beam[gcp]”。但是,当我在 G
主要记录两种不同的beam search版本 版本一 使用类似层次遍历的方式进行搜索,用队列进行维护,每次循环对当前层的所有节点进行搜索,这些节点每个分别对应topk个节点作为下一层候选节点,取
我的目标是创建一个每秒调用后端(云托管)服务最多次数的管道......我该如何实现? 背景故事:想象一下后端服务使用单个输入调用并返回单个输出。该服务具有与其关联的配额,允许每秒最大请求数(假设每秒
我想写入一个 gs 文件,但在编译时我不知道文件名。它的名称基于在运行时定义的行为。我该如何继续? 最佳答案 如果你使用 Beam Java,你可以使用 FileIO.writeDynamic()为此
我试图弄清楚如何使用Apache Beam读取大型CSV文件。 “大”是指几千兆字节(因此一次将整个CSV读取到内存中是不切实际的)。 到目前为止,我已经尝试了以下选项: 使用TextIO.read(
我是一名优秀的程序员,十分优秀!