gpt4 book ai didi

python - 使用 GCP Composer 运行 Hive 查询

转载 作者:太空宇宙 更新时间:2023-11-04 04:25:39 25 4
gpt4 key购买 nike

所以我计划使用 GCP Composer 来运行几个 Hive 作业。

将 Hive 与 Dataproc 结合使用是否是实现此目的的最佳方式?

为此应该将数据存储在哪里? Dataproc 可以从 Google Cloud Storage 存储桶中读取数据吗?

最佳答案

您可以通过几种方式在 Dataproc 中提交 Hive 作业。
YES dataproc 从 google bucket 读取数据。我已经回答了这个问题HERE

您可以在 dataporc 中提交您的配置单元作业的方法很少。
1) 您可以通过选择查询选项直接给出命令。
2) 您可以选择查询文件选项,然后提及位置文件(谷歌存储)。例如 Here

现在回答您的第一个问题,将 hive 与 Dataproc 结合使用是否是执行此操作的最佳方法? -
这完全取决于您的要求。有很多工作可供选择,您必须根据自己的要求进行选择,因此这是最好的。如果您可以详细说明您的要求,我可以更清楚地回答这个问题。

我可以给您一个HIVE JOBS的要点,以便您进行整理您的要求。

您可以在 Hive 作业中执行以下操作:

  • 您可以给出内联查询(一个或多个)
  • 您可以从查询文件(一个或多个)中给出查询命令
  • 您可以在配置单元中添加 jar 文件 - 可以用于任何目的,例如 UDF(一个或多个)
  • 您可以添加其他属性来配置您的作业
  • 您可以将工作自动化
    这就是基本的 hive 工作。

Airflow Data Proc Documentation具有您可以使用的所有可用运算符。

关于python - 使用 GCP Composer 运行 Hive 查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53565291/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com