gpt4 book ai didi

apache-atlas - 将元数据从 RDBMS 导入 Apache Atlas

转载 作者:行者123 更新时间:2023-12-03 20:54:01 26 4
gpt4 key购买 nike

我正在学习 Atlas 并试图找到一种从 RDBMS(如(Sql Server 或 Postgre Sql))导入元数据的方法。

有人可以提供引用或步骤吗?

我在 docker 中使用 Atlas 并在 HBase 和 Solr 中构建。目的是从 AWS RDS 导入元数据。

更新 1
重新表述我的问题。我们可以直接从 RDS Sql Server 或 PostgreSql 导入元数据,而无需在 hive (hadoop) 中导入实际数据吗?

任何评论或回答表示赞赏。谢谢!

最佳答案

AFAIK,Atlas 在 hive Metastore 上工作。

以下是 how to do it in AWS Emr while creating the cluster it self. ... Metadata classification, lineage, and discovery using Apache Atlas on Amazon EMR 的 AWS 文档

这是来自 sqoop 的 Cloudera 源代码。

来自 Cloudera 来源:Populate metadata repository from RDBMS in Apache Atlas question from Cloudera.

1) 您在 Atlas 中创建新类型。比如在Oracle的情况下,还有Oracle表类型、列类型等。
2) 创建从源元数据存储中提取元数据的脚本或过程。
3) 一旦您拥有要存储在 Atlas 中的元数据,您的流程将根据新类型直接使用 Java API 或 JSON 表示通过 REST API 创建关联的 Atlas 实体。如果您愿意,可以在存储新实体时为其添加谱系。

以下文档分步详细介绍了如何使用 sqoop 从任何 RDBMS 移动到 hive。

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_data-access/content/using_sqoop_to_move_ ...

你也可以引用这个:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_literal_sqoop_import_all_tables_literal

要将所有这些 sqoop 导入数据的元数据获取到 Atlas,请确保正确设置以下配置。

http://atlas.incubator.apache.org/Bridge-Sqoop.html

请注意,如果您的集群配置由 Ambari 管理,则不需要上述配置步骤。

关于apache-atlas - 将元数据从 RDBMS 导入 Apache Atlas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61590182/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com