gpt4 book ai didi

google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行

转载 作者:行者123 更新时间:2023-12-02 18:09:44 25 4
gpt4 key购买 nike

Cloud Data Fusion 会为每次管道运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置,我想使用该集群来运行管道

最佳答案

这可以通过使用远程 Hadoop 配置程序在系统管理 -> 配置 -> 系统计算配置文件 -> 创建新的计算配置文件下设置新的计算配置文件来实现。此功能仅在 Cloud Data Fusion 企业版 ( "Execution environment selection" ) 上可用。

以下是详细步骤。

  1. Dataproc 集群上的 SSH 设置

    a.导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称,转到“集群详细信息”。

    b.在“VM Instances”下,单击“SSH”按钮以连接到 Dataproc VM。 Dataproc VM SSH

    c.按照步骤 here要创建新的 SSH key ,请格式化公钥文件以强制执行过期时间,然后在项目或实例级别添加新创建的 SSH 公钥。

    d.如果 SSH 设置成功,您应该能够在 Compute Engine 控制台的元数据部分中看到刚刚添加的 SSH key ,以及 Dataproc 虚拟机中的authorized_keys 文件。 Dataproc SSH keys

  2. 为您的 Data Fusion 实例创建自定义系统计算配置文件

    a.单击“查看实例”导航到 Data Fusion 实例控制台 enter image description here

    b.点击右上角的“系统管理员”。 enter image description here

    c.在“配置”选项卡下,展开“系统计算配置文件”。单击“创建新配置文件”,然后在下一页上选择“远程 Hadoop 配置程序”。 Provisioner enter image description here

    d.填写个人资料的一般信息。

    e.您可以在 Compute Engine 下的“虚拟机实例详细信息”页面上找到 SSH 主机 IP 信息。 enter image description here

    f.复制步骤 1 中创建的 SSH 私钥,并将其粘贴到“SSH 私钥”字段。

    g。单击“创建”以创建配置文件。 Profile

  3. 配置您的数据融合管道以使用自定义配置文件

    a.单击管道以针对远程hadoop运行

    b.单击“配置”->“计算配置”并选择远程 hadoop 配置程序配置 Pipeline Remote Hadoop Compute Profile

关于google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56873909/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com