python - 在 GCS 上超过 240 万个文件的 Google Dataflow 上运行管道时，Apache Beam 的 FileBasedSource 上出现令人困惑的错误-6ren

python - 在 GCS 上超过 240 万个文件的 Google Dataflow 上运行管道时，Apache Beam 的 FileBasedSource 上出现令人困惑的错误

转载作者：行者123 更新时间：2023-12-04 09:25:55

我有一个运行在 Google Dataflow 上的 Apache Beam 管道，它从 GCS 读取 gzip 压缩的 JSON 数据，转换它们，并将它们加载到 Google BigQuery。该管道在一批样本数据上按预期工作，但是当我尝试在整个数据(~2.4M 文件)上运行它时，它有时会引发一个令人困惑的错误，在几次发生后会破坏该过程。
错误是:

Error message from worker: Traceback (most recent call last): File"apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1095, inapache_beam.runners.common._OutputProcessor.process_outputs File"/usr/local/lib/python3.7/site-packages/apache_beam/io/filebasedsource.py",line 380, in process source =list(source.split(float('inf')))[0].source IndexError: list index outof range During handling of the above exception, another exceptionoccurred: Traceback (most recent call last): File"/usr/local/lib/python3.7/site-packages/dataflow_worker/batchworker.py",line 647, in do_work work_executor.execute() File"/usr/local/lib/python3.7/site-packages/dataflow_worker/executor.py",line 179, in execute op.start() File"dataflow_worker/shuffle_operations.py", line 63, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 64, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 79, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 80, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "dataflow_worker/shuffle_operations.py", line 84, indataflow_worker.shuffle_operations.GroupedShuffleReadOperation.startFile "apache_beam/runners/worker/operations.py", line 332, inapache_beam.runners.worker.operations.Operation.output File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "dataflow_worker/shuffle_operations.py", line 261, indataflow_worker.shuffle_operations.BatchGroupAlsoByWindowsOperation.processFile "dataflow_worker/shuffle_operations.py", line 268, indataflow_worker.shuffle_operations.BatchGroupAlsoByWindowsOperation.processFile "apache_beam/runners/worker/operations.py", line 332, inapache_beam.runners.worker.operations.Operation.output File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "apache_beam/runners/worker/operations.py", line 670, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/worker/operations.py", line 671, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/common.py", line 963, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 1030, inapache_beam.runners.common.DoFnRunner._reraise_augmented File"apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1122, inapache_beam.runners.common._OutputProcessor.process_outputs File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "apache_beam/runners/worker/operations.py", line 670, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/worker/operations.py", line 671, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/common.py", line 963, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 1030, inapache_beam.runners.common.DoFnRunner._reraise_augmented File"apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1122, inapache_beam.runners.common._OutputProcessor.process_outputs File"apache_beam/runners/worker/operations.py", line 195, inapache_beam.runners.worker.operations.SingletonConsumerSet.receiveFile "apache_beam/runners/worker/operations.py", line 670, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/worker/operations.py", line 671, inapache_beam.runners.worker.operations.DoOperation.process File"apache_beam/runners/common.py", line 963, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 1045, inapache_beam.runners.common.DoFnRunner._reraise_augmented File"/usr/local/lib/python3.7/site-packages/future/utils/init.py",line 446, in raise_with_traceback raise exc.with_traceback(traceback)File "apache_beam/runners/common.py", line 961, inapache_beam.runners.common.DoFnRunner.process File"apache_beam/runners/common.py", line 553, inapache_beam.runners.common.SimpleInvoker.invoke_process File"apache_beam/runners/common.py", line 1095, inapache_beam.runners.common._OutputProcessor.process_outputs File"/usr/local/lib/python3.7/site-packages/apache_beam/io/filebasedsource.py",line 380, in process source =list(source.split(float('inf')))[0].source IndexError: list index outof range [while running 'GetData/ReadAllFiles/ReadRange']

我了解错误涉及的阶段是 GetData :

files = (p
         | 'Init' >> beam.Create([files_pattern])
         | 'GetData' >> ReadAllFromText())

哪里 p是管道对象和 files_pattern是形式为 gs://{bucket}/{prefix}/*.json.gz 的球体.
这个错误让我感到困惑，因为它没有说明管道本身，并记住它适用于样本批次的事实。
我的过程与 Avoid recomputing size of all Cloud Storage files in Beam Python SDK 中的过程非常相似.我检查了那里提到的资源，但我仍然无法管理我的错误。我在这里缺少什么？我找不到任何有关此错误的具体资源。

最佳答案

我建议使用 Dataflow Shuffle .数据保存在 Dataflow 后端中，而不是将 shuffle 数据保存在 VM 的永久性磁盘中。由于错误消息提到索引超出范围，并且从注释中可以看出，作业使用较少的数据运行，结果是内存或存储空间不足。
此外，请记住，您可以使用 Dataflow Google provided templates .请记住，这些模板使用的是 Java 而不是 Python。模板之一是 GCS Text to BigQuery。

关于python - 在 GCS 上超过 240 万个文件的 Google Dataflow 上运行管道时，Apache Beam 的 FileBasedSource 上出现令人困惑的错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63009565/

文章推荐： R tableGrob 更改行的格式

文章推荐： r - r 中 geom_net 中的标签边

文章推荐： sapui5 - 如何为 SAPUI5 库提供缺少的翻译文件？

google-cloud-dataflow - Cloud Dataflow - Dataflow 如何进行并行处理？
我的问题是，在幕后，对于元素级 Beam DoFn (ParDo)，Cloud Dataflow 的并行工作负载如何？例如，在我的 ParDO 中，我向外部服务器发送一个 http 请求以获取一个元素
google-cloud-dataflow - Dataflow 的高可用性和地理冗余
就 Google Cloud 上 Dataflow 的 HA 而言，最佳架构是什么？我的工作负载在两个区域运行。数据流从一个多区域存储桶中读取并将结果写出到另一个多区域存储桶中。为了实现高可用性(以
google-cloud-dataflow - Dataflow 中的迭代处理
如图 here数据流管道由固定的 DAG 表示。我想知道是否有可能实现一个管道，在该管道中处理继续进行，直到基于到目前为止计算的数据满足动态评估的条件。这是一些伪代码来说明我想要实现的内容:
google-cloud-dataflow - Cloud Dataflow 流式处理工作人员是否可以获得持续使用折扣？
在旧的定价页面上，他们提到 Cloud Dataflow 工作人员使用的所有 Google Compute 实例都是根据持续使用价格规则计费的，但新的定价页面不再提及。我假设由于它在内部使用相同的
google-cloud-dataflow - 在 Dataflow 流水线处理完所有数据后执行操作
批处理 Dataflow 作业处理完所有数据后是否可以执行操作？具体来说，我想将管道刚刚处理的文本文件移动到不同的 GCS 存储桶。我不确定将它放在我的管道中的哪个位置以确保它在数据处理完成后执行一次
google-cloud-dataflow - 用于在 Dataflow 中分组的自定义键
我希望能够通过自定义键使用分组，但这是我目前的尝试，我们为 KV 对象的键使用自定义类，因为我们希望 GroupBy 具有更复杂的条件，而不是使用 String 等进行简单的键匹配。 ```
google-cloud-dataflow - 在 Dataflow 上运行时路径中缺少对象或存储桶
当尝试在 Dataflow 服务上运行管道时，我在命令行上指定了暂存和临时存储桶(在 GCS 中)。当程序执行时，我在管道运行之前收到一个 RuntimeException，根本原因是我在路径中遗漏了
google-cloud-dataflow - 取消作业而不会丢失 DataFlow 上的数据
我试图找到一种优雅地结束我的工作的方法，以免丢失任何数据，从 PubSub 流式传输并写入 BigQuery。我可以设想的一种可能方法是让作业停止提取新数据，然后运行直到它处理完所有内容，但我不知道
google-cloud-dataflow - Cloud Dataflow 新鲜度和延迟的确切定义是什么？
问题: 使用 Cloud Dataflow 时，我们会看到 2 个指标(请参阅 this page): 系统延迟数据新鲜度这些在 Stackdriver 中也可用以下名称(摘自 here): sy
google-cloud-dataflow - Google Dataflow 延迟数据
我一直在阅读 Dataflow SDK 文档，试图找出当数据到达流作业中的水印时会发生什么。这一页: https://cloud.google.com/dataflow/model/windowin
google-cloud-dataflow - 从 Dataflow 中的压缩文件中读取
有没有办法(或任何类型的黑客)从压缩文件中读取输入数据？我的输入包含数百个文件，这些文件是用 gzip 压缩生成的，解压缩它们有些乏味。最佳答案 Dataflow 现在支持从压缩文本源中读取(从
google-cloud-dataflow - 如何在 Dataflow 中执行联合？
我正在尝试在 Dataflow 中执行联合操作。是否有用于在 Dataflow 中合并两个 PCollections 的示例代码？最佳答案一个简单的方法是像这样将 Flatten() 与 Remo
google-cloud-dataflow - 为什么 Dataflow 在管道更新后会留下一些磁盘？
在我的管道上运行“更新”后，我注意到有新创建的永久磁盘在 10 多分钟后未附加到任何实例。最佳答案这是 Dataflow 服务的一个持续已知问题，会在管道更新过程中导致孤立磁盘。可以安全地删除这些
google-cloud-dataflow - 是否可以使用自定义包运行 Cloud Dataflow？
是否可以为 Dataflow 工作人员提供自定义包？我想从计算内部输出到 Debian 打包的二进制文件。编辑:需要明确的是，包配置非常复杂，仅将文件捆绑在 --filesToStage 中是不可
google-cloud-dataflow - Cloud Dataflow 故障恢复
我想使用 Google Cloud Dataflow 创建 session 窗口，如 dataflow model paper 中所述。 .我想将我的未绑定(bind)数据发送到 Pub/Sub，然后
google-cloud-dataflow - Google Dataflow 中的时间戳偏差
我正在尝试运行从 pubsub 主题读取并写入 bigquery 的管道。时间戳是从主题消息中解析出来的。但是，我收到了一条关于允许的时间戳偏差的错误，并引用了下面复制的文档。 getAllowedT
google-cloud-dataflow - 使用 Dataflow 删除重复项
我有一个大型数据文件 (1 TB) 的数据要导入 BigQuery。每行包含一个键。在导入数据并创建我的 PCollection 以导出到 BigQuery 时，我想确保我不会基于此键值导入重复记录。
google-cloud-dataflow - 如何以编程方式取消运行时间过长的 Dataflow 作业？
我正在通过 Python API 在 Dataflow 上使用 Apache Beam 从 Bigquery 读取数据，对其进行处理，然后将其转储到 Datastore 接收器中。不幸的是，作业经常
spring-cloud-dataflow - spring-cloud-dataflow 是否支持调度定义为任务的应用程序？
我一直在研究使用 spring-cloud-dataflow 中的 spring-cloud-task 构建的项目。查看示例项目和文档后，似乎表明任务是通过仪表板或 shell 手动启动的。 spri
google-cloud-dataflow - 如何使用在 Dataflow 执行期间计算的架构写入 BigQuery？
我有以下场景: 管道 A 在 BigQuery 中查找表 A，进行一些计算并返回列名列表。此列名称列表用作管道 B 输出的 BigQuery 架构。您能否让我知道实现这一目标的最佳选择是什么？管

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 在 GCS 上超过 240 万个文件的 Google Dataflow 上运行管道时，Apache Beam 的 FileBasedSource 上出现令人困惑的错误