gpt4 book ai didi

python - 如何在 Azure 机器学习管道中对使用 U-SQL 脚本生成的结果运行 Python 脚本?

转载 作者:行者123 更新时间:2023-12-01 00:46:05 25 4
gpt4 key购买 nike

我想要处理存储在 Azure Data Lake Storage(第 1 代)中的大型表,首先在其上运行 U-SQL 脚本,然后运行 ​​Python 脚本,最后输出结果。

从概念上讲,这非常简单:

  1. 运行 .usql 脚本以从大型 initial_table 生成中间数据(两个表,intermediate_1intermediate_2)
  2. 对中间数据运行 Python 脚本以生成最终结果 final

Azure 机器学习管道应采取哪些步骤来执行此操作?

我认为以下计划可行:

  1. 使用 AdlaStepadla_compute 上运行 .usql 查询,例如

    int_1 = PipelineData("intermediate_1", datastore=adls_datastore)
    int_2 = PipelineData("intermediate_2", datastore=adls_datastore)

    adla_step = AdlaStep(script_name='script.usql',
    source_directory=sample_folder,
    inputs=[initial_table],
    outputs=[intermediate_1, intermediate_2],
    compute_target=adla_compute)
  2. 在计算目标 aml_compute 上运行 Python 步骤,例如

    python_step = PythonScriptStep(script_name="process.py",
    arguments=["--input1", intermediate_1, "--input2", intermediate_2, "--output", final],
    inputs=[intermediate_1, intermediate_2],
    outputs=[final],
    compute_target=aml_compute,
    source_directory=source_directory)

然而,在 Python 步骤中失败并出现此类错误

StepRun(process.py) Execution Summary

======================================
StepRun(process.py) Status: Failed

Unable to mount data store mydatastore because it does not specify a storage account key.

我不太明白提示“mydatastore”的错误,该名称与我正在其上运行 U-SQL 查询的 adls_datastore Azure Data Lake 数据存储引用相关联。

如果我在这里做错了什么,有人能闻到吗?我是否应该将中间数据(intermediate_1intermediate_2)移动到存储帐户,例如在 PythonScriptStep 之前使用 DataTransferStep

最佳答案

ADLS 不支持挂载。所以,你是对的,你必须首先使用 DataTransferStep 将数据移动到 blob。

关于python - 如何在 Azure 机器学习管道中对使用 U-SQL 脚本生成的结果运行 Python 脚本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56975319/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com