gpt4 book ai didi

google-cloud-platform - 如何自动运行 Google Dataprep 作业?

转载 作者:行者123 更新时间:2023-12-02 07:02:43 25 4
gpt4 key购买 nike

有没有办法通过 API 触发 Google Dataprep 流程?

我每天需要运行 30 个不同的流程。源数据集每天都在变化,结果必须附加到 Google BigQuery 表中。有没有办法使这个过程自动化?源文件是 .xls 文件。我可以将它们上传到云存储并编写一个云函数,将其上传到 Dataprep 需要的任何地方。问题是似乎无法替换 Dataprep 流程中的源数据集。如果是这样,那么计划运行和新的 Job Run API 有什么意义?

最佳答案

有几种方法可以做到这一点。您可能最终会结合 parameterizationscheduling运行计划作业的功能,每次都会选择新文件。

根据您的用例,您可以做:

导入目录

如果您设置的目录只包含一个 excel 文件(见下图),您可以使用 + button使用目录作为输入数据集。每次运行作业时,都会处理该目录中的文件。

Import directory

您现在可以安排作业,创建输出目标,您应该已经准备就绪。

使用日期时间参数

假设您每天添加一个文件名中包含日期的新文件。例如在云存储中,它看起来像这样:

GCS UI

您可以使用 Dataprep 文件浏览器中的Parameterize 按钮并设置以下参数:

date time parameter

这应该选择前一天的文件:

Preview of parameterization

您可以让他们导入数据集并安排流程。如果您的计划每天运行,它每次都会选取新文件。

使用变量

或者,您可以在数据集的文件路径中定义一个变量。

variable for the folder name

然后您可以使用 JobGroup API 覆盖该变量。

POST /v4/jobGroups

{
"wrangledDataset": {
"id": datasetId
},
"runParameters": {
"overrides": {
"data": [
{
"key": "folder-name",
"value": "new folder name"
}
]
}
}
}

请注意,要使其正常工作,您的文件需要具有相同的结构。参见 https://cloud.google.com/dataprep/docs/html/Create-Dataset-with-Parameters_118228628#structuring-your-data了解更多详情。

也应该可以使用通配符参数作为第一种方法的替代方法。

关于google-cloud-platform - 如何自动运行 Google Dataprep 作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60280769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com