azure-machine-learning-studio - Azure ML Python SDK mini_batch_size 在 ParallelRunConfig for TabularDataset 上未按预期工作-6ren

azure-machine-learning-studio - Azure ML Python SDK mini_batch_size 在 ParallelRunConfig for TabularDataset 上未按预期工作

转载作者：行者123 更新时间：2023-12-04 08:34:24

25

4

我正在使用 Azure ML Python SDK 来构建自定义实验管道。我正在尝试在具有 GPU 的 4 个 VM 集群上并行运行我的表格数据集的训练。我正在关注此链接上提供的文档 https://docs.microsoft.com/en-us/python/api/azureml-contrib-pipeline-steps/azureml.contrib.pipeline.steps.parallelrunconfig?view=azure-ml-py
我面临的问题是，无论我为 mini_batch_size 设置什么值，单个运行获得所有行。我正在使用 EntryScript().logger 来检查传递给每个进程的行数。我看到的是，我的数据被 4 个虚拟机处理了 4 次，并且没有分成 4 个部分。我试过设置值 mini_batch_size至 1KB , 10KB , 1MB ，但似乎没什么区别。
这是我的 ParallelRunConfig 和 ParallelRunStep 代码。任何提示表示赞赏。谢谢

#------------------------------------------------#
# Step 2a - Batch config for parallel processing #
#------------------------------------------------#
from azureml.pipeline.steps import ParallelRunConfig

# python script step for batch processing
dataprep_source_dir = "./src"
entry_point = "batch_process.py"
mini_batch_size = "1KB"
time_out = 300

parallel_run_config = ParallelRunConfig(
    environment=custom_env,
    entry_script=entry_point,
    source_directory=dataprep_source_dir,
    output_action="append_row",
    mini_batch_size=mini_batch_size,
    error_threshold=1,
    compute_target=compute_target,
    process_count_per_node=1,
    node_count=vm_max_count,
    run_invocation_timeout=time_out
)


#-------------------------------#
# Step 2b - Run Processing Step #
#-------------------------------#
from azureml.pipeline.core import PipelineData
from azureml.pipeline.steps import PythonScriptStep
from azureml.pipeline.steps import ParallelRunStep
from datetime import datetime

# create upload dataset output for processing
output_datastore_name = processed_set_name
output_datastore = Datastore(workspace, output_datastore_name)

processed_output = PipelineData(name="scores", 
                          datastore=output_datastore, 
                          output_path_on_compute="outputs/")

# pipeline step for parallel processing
parallel_step_name = "batch-process-" + datetime.now().strftime("%Y%m%d%H%M")

process_step = ParallelRunStep(
    name=parallel_step_name,
    inputs=[data_input],
    output=processed_output,
    parallel_run_config=parallel_run_config,
    allow_reuse=False
)

最佳答案

我已经找到了这个问题的原因。文档中没有提到的是 mini_batch_size仅当您的表格数据集包含多个文件时才有效，例如，多个带有 X 的 Parquet 文件。每个文件的行数。如果您有一个包含所有行的巨大文件，mini_batch_size无法从中仅提取部分数据以进行并行处理。我已经通过将 Azure Synapse Workspace 数据管道配置为每个文件只存储几行来解决这个问题。

关于azure-machine-learning-studio - Azure ML Python SDK mini_batch_size 在 ParallelRunConfig for TabularDataset 上未按预期工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64869372/

25

4

0

文章推荐： database - 通过从备份中提取配置来恢复 marklogic 数据库

文章推荐： java - Spring Boot : Kafka health indicator

文章推荐： Python:如何从大字典中存在的 2 个键生成 DataFrame

visual-studio - 使用 SQL Server Management Studio、Visual Studio Code、Azure Data Studio、Visual Studio 生成数据集
我经常使用 SSMS 查询数据和构建数据集，我的 IT 部门负责数据库管理。最近我发现了 Azure Data Studio，我喜欢: 智能感知源代码控制(例如使用 Git) 来自社区的扩展 SQ
visual-studio - Visual Studio #if on Visual Studio 版本
我想根据我使用的 visual studio 版本编译不同的东西，比如 #if VISUAL_STUDIO_VERSION > 2015 eventH?.Invoke(this, EventArgs.
visual-studio - 从visual studio 2005升级到visual studio 2010
我们的开发团队计划从 visual studio 2005 升级到 visual studio 2010 -- 跳过 visual studio 2008。大部分项目是VB ASP.NET项目，使用
visual-studio - Visual Studio 2015找不到Visual Studio 2010
我的Visual Studio 2015无法构建2010平台工具集。它说: The build tools for Visual Studio 2010 (v100) cannot be found.
visual-studio - 我应该在 Visual Studio 2015 旁边安装 Visual Studio 2017 还是应该先卸载 Visual Studio 2015 然后再安装 Visual Studio 2017？
我目前正在使用 Visual Studio 2015 来编程 ASP.NET Core 应用程序。我对安装 Visual Studio 2017 有以下疑问: 什么被认为是最佳实践和/或最干净的方法？
visual-studio-2015 - Visual Studio 2015 - 连接到 Visual Studio 库以获取扩展和更新时出现 Visual Studio 库错误
尝试从扩展和更新获取 Visual Studio 扩展时，出现以下错误:- 向 visualstudiogallery.msdn.microsoft.com/Services/VStudio/Exte
visual-studio-code - Visual Studio Code可以和visual studio 2019并排安装吗
这个问题在这里已经有了答案: Can Visual Studio Code and VS 2012 be installed on same computer? (1 个回答) 关闭去年。在安装了
visual-studio - 将颜色主题从 Visual Studio 代码移植到 Visual Studio
作为标准安装的一部分，Visual Studio Code 带有一个名为“Monokai Dimmed”的颜色主题。有没有办法将它移植到 Visual Studio 2015？我检查了社区主题( h
visual-studio - 使用 Visual Studio 安装 nSight Studio
我想开始编程 CUDA。我已经安装了 Visual Studio 2010 Express。我还安装了 nVidia nSight Visual Studio。而且我具备所有常见的先决条件(Ne
visual-studio - Visual Studio 2013社区版vs Visual Studio Online专业版
Visual Studio Community Edition是否可以使用Visual Studio Online帐户上的存储库？我一直为包含在Online帐户中的Visual Studio Onl
android-studio - Android Studio 不会从 Studio ide 运行应用程序？
我有一个我一直在开发的应用程序，但在 android studio 上遇到了问题。当我点击“build->run”然后选择我的设备时，应用程序永远不会在我的手机上运行(并且自动出现的android-s
visual-studio-2010 - 如何使解决方案在Visual Studio 2010或Visual Studio 2012的解决方案资源管理器窗口中可见？
我正在使用Visual Studio2010。我面临的一个问题是，当我创建一个新的Web项目时，Visual Studio将创建该项目，并且不会在解决方案资源管理器中显示其解决方案。另一件事是，我想
visual-studio-2012 - 如何在不安装Visual Studio 2012的情况下使用MsBuild在生成服务器上生成Visual Studio 2012发布配置文件
我通读了这里的许多帖子，却找不到一个有效的明确答案。因此，在花了一些时间使它生效之后，我认为应该发布它。问题:发布配置文件将建立在服务器上，但不会发布。解: 确保已安装Microsoft Wind
visual-studio-2008 - Visual Studio 2012无法检测到Visual Studio 2008生成工具
我正在尝试使用Visual Studio 2012构建针对.NET 3.5的C++ CLI应用程序。通过安装Visual Studio 2008，并指定v90平台工具集，我已经在一台机器上进行了这项
visual-studio-2010 - 如何将Visual Studio 2013项目转换为Visual Studios 2010？
我在 Microsoft Visual Studios 2013 中有一个项目，我想在 Microsoft Visual Studios 2010 中打开它。有什么简单的方法吗？还是我必须在2010年
visual-studio - Visual Studio 解决方案是否在 Visual Studio Mac 中打开？
我想知道，如果我发送一个解决方案文件夹(它是用 visual studio C# 编写的)，您可以在 visual studio for mac 中打开解决方案吗？在visual studio 20
visual-studio - Visual Studio 和 Visual Studio Code 中的相同快捷方式
有没有办法在 Visual Studio Code 和 Visual Studio 中设置相同的快捷方式(而不必每次都手动更改它们)？例如，我在 Visual Studio Code 中经常使用 A
visual-studio-code - Visual Studio Code 替换 Visual Studio
我刚开始了解 Visual Studio Code。我想知道，我可以将 Visual Studio 替换为所有 .NET 开发相关的工作吗？我可以节省 Visual Studio 许可的成本吗？ V
visual-studio - Visual Studio 安装程序缺少选项值 : InstallPath - Visual Studio 2019
我安装了具有有效许可证(Visual Studio 订阅)的 Visual Studio 2019 企业版(VS 2019 16.1.4)，它运行良好。突然之间，当我尝试打开项目或项目中的任何文件时
visual-studio - 关于如何在 Visual Studio 中使用 sassy studio 进行编译的说明
我一直在使用 Compass 编译 Windows 环境中的 sass 文件，无论是在命令行上还是使用 Compass-app 来查看目录。我刚刚开始使用 Visual Studio(专业版 201

首页

博学

6Ren·AI

商城

azure-machine-learning-studio - Azure ML Python SDK mini_batch_size 在 ParallelRunConfig for TabularDataset 上未按预期工作