gpt4 book ai didi

java - 与在 Amazon EMR 上运行 Hive/Sqoop 相关的查询?

转载 作者:行者123 更新时间:2023-11-29 06:42:09 25 4
gpt4 key购买 nike

我的用例:

我想通过SQOOP 从EC2 导入大数据到Hive。 Hive 中导入的数据将通过应用某种算法在 Hive 中进行处理,并生成一些结果(以表格形式,仅在 Hive 中)。并且生成的结果将仅通过 SQOOP 再次导出回 Ec2。

我是 Amazon Web Services 的新手,想在 AWS EMR 的帮助下实现这个用例。我已经在本地机器上实现了它。

我已经阅读了一些与 AWS EMR 相关的链接以启动实例以及关于什么是 EMR、它是如何工作的等等...

我对 EMR 有一些疑问,例如:

1) EMR 使用 S3 Buckets,其中保存输入和输出数据 Hadoop 处理(以对象的形式)。 ---> 我没有得到如何在 S3 上以对象的形式存储数据(我的数据将是文件)

2) 如前所述,我已经用 Java 为我的用例实现了一个任务。因此,如果我创建程序的 JAR 并使用自定义 JAR 创建作业流程。是否可以像这样实现或是否需要为此做一些额外的事情?

3) 正如我在我的用例中所说,我想在 SQOOP 的帮助下将我的结果导出回 Ec2。 EMR 是否支持 SQOOP?

--编辑部分4) 我也会每天/每周从 SQL Server 导入我的数据,因为我在 SQL Server 中的数据每天/每周都会更新。如果我想在 S3 上导入该数据并将其提供给 Hive,那么我该怎么做? (因为 Hive 将其数据存储在/user/hive/warehouse 目录下的 HDFS 上)。如何链接到 HDFS 中的 S3 和/user/hive/warehouse 目录。

请尽快回复我你的答案。我想尽早这样做。

非常感谢。

最佳答案

可以在 AWS EMR 上安装 Sqoop。您不需要使用 S3 来存储文件,而是可以使用本地(临时)HDFS。安装 Sqoop 后,您可以将数据连同它导入 HDFS,在 HDFS 中运行计算,然后再次使用 Sqoop 将数据导出。

这是我写的一篇关于如何在 AWS EMR 上安装 Sqoop 的文章: http://blog.kylemulka.com/2012/04/how-to-install-sqoop-on-amazon-elastic-map-reduce-emr/

关于java - 与在 Amazon EMR 上运行 Hive/Sqoop 相关的查询?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10276573/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com