google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行-6ren

google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行

转载作者：行者123 更新时间：2023-12-02 18:09:44

25

4

Cloud Data Fusion 会为每次管道运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置，我想使用该集群来运行管道

最佳答案

这可以通过使用远程 Hadoop 配置程序在系统管理 -> 配置 -> 系统计算配置文件 -> 创建新的计算配置文件下设置新的计算配置文件来实现。此功能仅在 Cloud Data Fusion 企业版 ( "Execution environment selection" ) 上可用。

以下是详细步骤。

Dataproc 集群上的 SSH 设置
a.导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称，转到“集群详细信息”。
b.在“VM Instances”下，单击“SSH”按钮以连接到 Dataproc VM。
c.按照步骤 here要创建新的 SSH key ，请格式化公钥文件以强制执行过期时间，然后在项目或实例级别添加新创建的 SSH 公钥。
d.如果 SSH 设置成功，您应该能够在 Compute Engine 控制台的元数据部分中看到刚刚添加的 SSH key ，以及 Dataproc 虚拟机中的authorized_keys 文件。
为您的 Data Fusion 实例创建自定义系统计算配置文件
a.单击“查看实例”导航到 Data Fusion 实例控制台
b.点击右上角的“系统管理员”。
c.在“配置”选项卡下，展开“系统计算配置文件”。单击“创建新配置文件”，然后在下一页上选择“远程 Hadoop 配置程序”。
d.填写个人资料的一般信息。
e.您可以在 Compute Engine 下的“虚拟机实例详细信息”页面上找到 SSH 主机 IP 信息。
f.复制步骤 1 中创建的 SSH 私钥，并将其粘贴到“SSH 私钥”字段。
g。单击“创建”以创建配置文件。
配置您的数据融合管道以使用自定义配置文件
a.单击管道以针对远程hadoop运行
b.单击“配置”->“计算配置”并选择远程 hadoop 配置程序配置

关于google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56873909/

25

4

0

文章推荐： javascript - 使javascript动画条与动画百分比同步

文章推荐： javascript - 如何使用 javascript 验证两个文本区域

c++ - 使用 boost::fusion::fold 将 boost::fusion::set 转换为 boost::fusion::map
我有一个 fusion 集，想将其转换成 fusion 图。 #include #include #include #include #include #include #include
c++ - 是否可以在 fusion 图中嵌套 fusion 图？
我是 fusion 新手。是否可以在 fusion 图中嵌套 fusion 图？在下面的示例中，我如何编写代码来解析为 B？ #include #include #include struct
google-fusion-tables - Google Fusion Tables future ？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve thi
google-fusion-tables - 使用 Fusion Tables 时有哪些技术限制？
我正在寻找有关使用 Fusion Tables 时的技术限制的信息:- - Fusion Table 中可以存储多少行 - 可以针对融合表同时运行多少查询(读/写)。我在 https://devel
google-fusion-tables - Fusion Tables 数字 ID
我正在使用 Fusion Table 进行多重查询。直到昨天我都使用 numericID 但今天创建了一个新表，FT 在关于菜单中没有显示数字 ID。我试图用 Ecrypted 更改 NUmeric
javascript - Google Fusion Map - 从 google fusion 表查询动态菜单
我很确定我知道我的代码有什么问题，但我不确定如何修复它。我有一个谷歌融合表，我正在查询它以生成一个包含单选按钮的菜单。页面上还有一个 map ，它是一个像谷歌地图一样可视化的谷歌融合表。当我对几个
javascript - npx create-fusion-app 不起作用。 fusion.js
在运行npx create-fusion-app my-app时，我收到以下错误。npm版本是5.6.0，node版本是8.11.2。 Creating a new Fusion.js app in:
c++ - boost::fusion::zip 函数与 boost::fusion::zip_view
我正在努力学习 boost fusion，但我不清楚 zip_view 和 zip 函数结果之间的区别。 namespace fuz = boost::fusion; typedef fuz::vec
google-cloud-data-fusion - 如何编辑已发布的 Cloud Data Fusion Pipeline
我在 Google Cloud Data Fusion 中部署了一个数据管道，但它没有按预期工作。有没有办法在 Cloud Data Fusion 中编辑已部署的数据管道，还是必须将其删除并从头开始重
google-cloud-data-fusion - 停止 Cloud Data Fusion 实例
我有使用 Google Data Fusion 仅运行几个小时的生产管道。我想停止数据融合实例并在第二天启动它。我没有看到停止实例的选项。无论如何我们可以停止实例并再次启动同一个实例吗？最佳答案根
google-fusion-tables - 对 Google Fusion Tables 的数量请求的硬性限制？定价计划？
我们每天可以向 Fusion Tables 发出的请求数量是否有硬性限制？如果有，有多少人知道超出该限制的定价计划(如果有)？最佳答案限制是每天 25000 个请求，读取方法算作一个请求，写请求算
google-fusion-tables - 使用 MySQL 或其他数据库动态更新 Google fusion 表
我已读过 https://developers.google.com/fusiontables/docs/developers_guide#Writ ...想要了解一下，但我想知道是否有完整的教程来展
google-fusion-tables - 对 Google Fusion Tables 的数量请求的硬性限制？定价计划？
我们每天可以向 Fusion Tables 发出的请求数量是否有硬性限制？如果有，有多少人知道超出该限制的定价计划(如果有)？最佳答案限制是每天 25000 个请求，读取方法算作一个请求，写请求算
c++ - 将 boost::fusion::for_each 应用于具有可变函数对象的 boost::fusion::vector
我正在尝试使用 boost::fusion::vector。但是，我遇到了这个非常简单的问题。 #include #include #include #include using namesp
google-cloud-data-fusion - 是否可以使用 Google Data Fusion 安排作业，然后删除开发人员实例？
我正在评估用于内部项目的 Google Cloud Data Fusion，我希望能够设置 Data Fusion 实例、定义和部署计划管道，然后关闭 Data Fusion 实例。但是，当实例关闭时
vmware-fusion - 从 VMware Fusion 将 VM 导出为 OVF 文件
我目前在 10.9 上运行 VMware Fusion 6。我知道在 ESX 中，我相信即使是 VMware Workstation，您也可以将 VM 导出为 OVF 文件，然后在 VirtualBo
google-cloud-data-fusion - 无法使用 Google Data Fusion 连接到 Salesforce
尝试将 salesforce 连接器配置为使用 Google Data Fusion 从 salesforce 读取数据，但无法连接到 Salesforce。点击连接器上的“获取架构”按钮时，我不断
c++ - 为什么 boost::fusion::as_set 不从 boost::fusion::vector 中删除重复项？
我有: auto my_vec2 = boost::fusion::make_vector(42,false,42); auto my_set2 = boost::fusion::as_set(my_
google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行
Cloud Data Fusion 会为每次管道运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置，我想使用该集群来运行管道最佳答案这可以通过使用
google-cloud-data-fusion - 在 Cloud Data Fusion 中加载多个表失败并出现 DAG 错误
我有一个包含大约 1000 个表的 MS SQL Server 数据源，我需要将其放入 BigQuery。我希望使用 Data Fusion 将它们全部加载到 BigQuery 中的暂存表中，然后再对

首页

博学

6Ren·AI

商城

google-cloud-data-fusion - 如何配置 Cloud Data Fusion 管道以针对现有 Hadoop 集群运行