sql-server - 将多个客户端数据加载到 Hadoop 的最佳实践-6ren

sql-server - 将多个客户端数据加载到 Hadoop 的最佳实践

转载作者：可可西里更新时间：2023-11-01 14:57:36

25

4

我们正在使用 Cloudera CDH 在 Hadoop 框架上创建 POC。我们想将多个客户端的数据加载到 Hive 表中。

截至目前，我们为 SQL Server 上的每个客户端提供了单独的数据库。对于 OLTP，此基础架构将保持不变。 Hadoop 将用于 OLAP。我们有一些对每个客户都相同的主要维度表。所有客户端数据库都具有完全相同的模式。这些表具有相同的主键值。到现在为止，这很好，因为我们有单独的客户端数据库。现在我们正在尝试将多个客户端数据加载到同一个数据容器(Hive 表)中。现在，如果我们通过 Sqoop 作业将数据从多个 SQL Server 数据库直接加载到 Hive 中，我们将有多个具有相同主键值的行。我正在考虑在 Hive 表中使用代理键，但 Hive 不支持自动递增，但可以通过 UDF 实现。

我们不想修改 SQL Server 数据，因为它正在运行生产数据。

一个。将多个客户端数据加载到 Hadoop 生态系统的标准/通用方法/解决方案是什么？

sql server数据库表的主键如何轻松映射到Hadoop Hive表？

我们如何确保一个客户端永远无法看到另一个客户端的数据？

谢谢

最佳答案

@Praveen:使用映射器来克服每个客户端数据到 Hadoop 服务器的停机时间，因为在这种情况下客户端数据保存主键。为每个客户端和日期分区充分利用分区。在开始 sqoop 导入之前，您必须为 HDFS 文件位置实现 TDE 区域。*TDE:透明数据加密区域，为您的客户数据提供安全区域的最佳实践。

关于sql-server - 将多个客户端数据加载到 Hadoop 的最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35034754/

25

4

0

文章推荐： hadoop - GFS/Hadoop master的存储容量

文章推荐： sql - hadoop orc表始终只使用一个映射器

文章推荐： hadoop - Cosmos Hive 错误进入和使用 map reduce

文章推荐： c++ - vector 子集的迭代器

sql-server - Windows Server 2008 "Server Core"是否适合 SQL Server 实例？
本周我将在 Windows Server 2008 上设置一个专用的 SQL Server 2005 机器，并希望将其精简为尽可能简单，同时仍能发挥全部功能。为此，“服务器核心”选项听起来很有吸引力
sql-server - 我可以随我的应用程序一起分发和安装 SQL Server Server 管理对象吗？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 8 年前。 Improve
sql-server - 如何将SQL Server 2014数据库备份恢复到SQL Server 2016？
我获取了 2014 版本数据库的备份，并尝试在另一台服务器中将其恢复到具有相同名称和登录名的数据库中。此 SQL Server 版本是 2016。恢复备份文件时，出现此错误: TITLE: Micr
sql-server - 如何将SQL Server 2014数据库备份恢复到SQL Server 2016？
我获取了 2014 版本数据库的备份，并尝试在另一台服务器中将其恢复到具有相同名称和登录名的数据库中。此 SQL Server 版本是 2016。恢复备份文件时，出现此错误: TITLE: Micr
sql-server - Team Foundation Server - Sql Server 版本管理
TFS 是否提供任何增强的方法来存储对 sql server 数据库所做的更改，而不是使用它来对在数据库上执行的 sql 语句的文本文件进行版本控制？或者我正在寻找的功能是否仅在第 3 方工具(如
sql-server - SQL Server 索引最佳实践 (SQL Server 2008)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
sql-server - 重命名 SQL Server 主机后更新 sys.servers
我即将将我的 SQL Server 2012 实例升级到 SQL Server 2014。我已经克隆了主机 Windows VM 并将其重命名为 foo-2012至 foo-2014 . 重新启动时
sql-server - 授予 SQL Server 登录数据库访问权限 - SQL Server
我想为 SQL Server 登录授予对数据库的访问权限。我知道 sp_grantdbaccess，但它已被弃用。我可以改用什么以及如何检查登录名是否还没有访问数据库的权限？场景:UserA 创建数
sql-server - 是否可以将数据从sql server 2005 中的表恢复到sql server 2008？
客户别无选择，只能在接下来的几天内从 sql server 2000 迁移到 2008。测试显示 2005 年的重要功能出现了 Not Acceptable 性能下降，但 2008 年却没有。好消息是
sql-server - 将数据库从一个 SQL Server 导出到另一个 SQL Server
我有一个测试数据库，我需要将其导出到我们客户的测试环境中。这将是一次性的工作。我正在使用 SQL Server 2005(我的测试数据库是 SQL Server 2005 Express) 执行此
mongodb - 连接到主机时出错 : could not connect to server: server selection error: server selection timeout current topology: Type: Single Servers
我需要将一个 CSV 文件导入到 mongoDB 不幸的是我遇到了以下错误: error connecting to host: could not connect to server: se
sql-server-2008 - 从sql server 2008升级到sql server 2008 R2
我以为 R2 是一个补丁/服务包。我一直在寻找下载，但没有看到。因此，我假设 R2 是一个新版本，并且我需要 sqlserver 2008 r2 的安装介质来进行升级？另外，我需要为新许可证付费吗？
sql-server - SQL server management studio - 如何使用连接字符串连接到 SQL server？
我无法使用 SQL Server Management Studio 连接到 SQL Server。我有一个连接字符串: 我尝试通过在服务器名中输入 myIP、在登录名中输入 MyID、在密码中
sql-server - 如何在一台 SQL Server 上加密并在另一台 SQL Server 上解密？
我们希望使用 SQL Server 加密来加密数据库中的几个列。我们还需要在生产和测试环境之间传输数据。看来最好的解决方案是在生产和测试服务器上使用相同的主 key 、证书和对称 key ，以便我可以
sql-server - FxCop for SQL Server - 分析 SQL Server 数据库潜在问题的工具
有没有可以分析 SQL Server 数据库潜在问题的工具？例如: a foreign key column that is not indexed 没有 FILL FACTOR 的 uniquei
sql-server - 创建复制错误 : You cannot create a publication from server 'X' because the server is too old
我正在尝试从我的 SQL 2012 BI 版本建立复制，但我收到一条奇怪的错误消息! "You cannot create a publication from server 'X' because
sql-server - SQL Server 2005 : How Secure is SQL Server Authentication?
如果您使用 SQL Server 身份验证 (2005)，登录详细信息是否以明文形式通过网络发送？最佳答案如您所愿，安全无忧... 您可以相当轻松地配置 SSL，如果您没有受信任的证书，如果您强制
sql-server - 将数据从一个 SQL Server 数据库表复制到另一个 SQL Server 数据库表
我想将数据从一个表复制到不同服务器之间的另一个表。如果是在同一服务器和不同的数据库中，我使用了以下 SELECT * INTO DB1..TBL1 FROM DB2..TBL1 (to copy w
sql-server - 无法从另一个 SQL Server 连接到 SQL Server 命名实例
我希望得到一些帮助，因为我在这个问题上已经被困了 2 天了! 场景:我可以从我的开发计算机(和其他同事)连接到 SERVER\INSTANCE，但无法从另一个 SQL Server 连接。我得到的错误
sql-server - 创建复制错误 : You cannot create a publication from server 'X' because the server is too old
我正在尝试从我的 SQL 2012 BI 版本建立复制，但我收到一条奇怪的错误消息! "You cannot create a publication from server 'X' because

首页

博学

6Ren·AI

商城

sql-server - 将多个客户端数据加载到 Hadoop 的最佳实践