gpt4 book ai didi

sql-server - 将多个客户端数据加载到 Hadoop 的最佳实践

转载 作者:可可西里 更新时间:2023-11-01 14:57:36 25 4
gpt4 key购买 nike

我们正在使用 Cloudera CDH 在 Hadoop 框架上创建 POC。我们想将多个客户端的数据加载到 Hive 表中。

截至目前,我们为 SQL Server 上的每个客户端提供了单独的数据库。对于 OLTP,此基础架构将保持不变。 Hadoop 将用于 OLAP。我们有一些对每个客户都相同的主要维度表。所有客户端数据库都具有完全相同的模式。这些表具有相同的主键值。到现在为止,这很好,因为我们有单独的客户端数据库。现在我们正在尝试将多个客户端数据加载到同一个数据容器(Hive 表)中。现在,如果我们通过 Sqoop 作业将数据从多个 SQL Server 数据库直接加载到 Hive 中,我们将有多个具有相同主键值的行。我正在考虑在 Hive 表中使用代理键,但 Hive 不支持自动递增,但可以通过 UDF 实现。

我们不想修改 SQL Server 数据,因为它正在运行生产数据。

一个。将多个客户端数据加载到 Hadoop 生态系统的标准/通用方法/解决方案是什么?

sql server数据库表的主键如何轻松映射到Hadoop Hive表?

我们如何确保一个客户端永远无法看到另一个客户端的数据?

谢谢

最佳答案

@Praveen:使用映射器来克服每个客户端数据到 Hadoop 服务器的停机时间,因为在这种情况下客户端数据保存主键。为每个客户端和日期分区充分利用分区。在开始 sqoop 导入之前,您必须为 HDFS 文件位置实现 TDE 区域。*TDE:透明数据加密区域,为您的客户数据提供安全区域的最佳实践。

关于sql-server - 将多个客户端数据加载到 Hadoop 的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35034754/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com