gpt4 book ai didi

google-bigquery - 将数据集参数添加到列中,以便稍后通过 DataPrep 在 BigQuery 中使用它们

转载 作者:行者123 更新时间:2023-12-01 12:08:01 25 4
gpt4 key购买 nike

我正在通过 Google DataPrep 从 Google Cloud Storage (GCS) 导入多个文件,并将结果存储在 Google BigQuery 的表中。 GCS 上的结构如下所示:

//source/user/me/datasets/{month}/2017-01-31-file.csv
//source/user/me/datasets/{month}/2017-02-28-file.csv
//source/user/me/datasets/{month}/2017-03-31-file.csv

我们可以创建一个参数为 outlined on this page 的数据集.这一切工作正常,我已经能够正确导入它。

但是,在这个 BigQuery 表(输出)中,我无法仅提取其中包含参数 month 的行。

因此,我如何使用 DataPrep 将这些数据集参数(此处:{month})添加到我的 BigQuery 表中?

最佳答案

虽然最初的答案在发布时是正确的,但上周推出了更新,其中添加了一些未在发行说明中具体说明的功能,包括针对此问题的另一种解决方案。

除了SOURCEROWNUMBER() (现在也可以表示为 $sourcerownumber ),现在还有一个名为 $filepath 的源元数据引用— 如您所料,它将文件的本地路径存储在 Cloud Storage 中。

这里有很多注意事项,例如它不会返回 BigQuery 源的值,如果您 pivot 则它不可用。 , join , 或 unnest . . .但在您的场景中,您可以轻松地将它放入列中并使用它进行任何需要的匹配或删除。

注意:如果您的数据源示例是在此功能之前创建的,则您需要创建一个新示例才能在界面中看到它(而不仅仅是 NULL 值)。

这些元数据字段的完整说明可在此处获得: https://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148

关于google-bigquery - 将数据集参数添加到列中,以便稍后通过 DataPrep 在 BigQuery 中使用它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54766878/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com