- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想通过SQOOP 从EC2 导入大数据到Hive。 Hive 中导入的数据将通过应用某种算法在 Hive 中进行处理,并生成一些结果(以表格形式,仅在 Hive 中)。并且生成的结果将仅通过 SQOOP 再次导出回 Ec2。
我是 Amazon Web Services 的新手,想在 AWS EMR 的帮助下实现这个用例。我已经在本地机器上实现了它。
我已经阅读了一些与 AWS EMR 相关的链接以启动实例以及关于什么是 EMR、它是如何工作的等等...
1) EMR 使用 S3 Buckets,其中保存输入和输出数据 Hadoop 处理(以对象的形式)。 ---> 我没有得到如何在 S3 上以对象的形式存储数据(我的数据将是文件)
2) 如前所述,我已经用 Java 为我的用例实现了一个任务。因此,如果我创建程序的 JAR 并使用自定义 JAR 创建作业流程。是否可以像这样实现或是否需要为此做一些额外的事情?
3) 正如我在我的用例中所说,我想在 SQOOP 的帮助下将我的结果导出回 Ec2。 EMR 是否支持 SQOOP?
--编辑部分4) 我也会每天/每周从 SQL Server 导入我的数据,因为我在 SQL Server 中的数据每天/每周都会更新。如果我想在 S3 上导入该数据并将其提供给 Hive,那么我该怎么做? (因为 Hive 将其数据存储在/user/hive/warehouse 目录下的 HDFS 上)。如何链接到 HDFS 中的 S3 和/user/hive/warehouse 目录。
请尽快回复我你的答案。我想尽早这样做。
非常感谢。
最佳答案
可以在 AWS EMR 上安装 Sqoop。您不需要使用 S3 来存储文件,而是可以使用本地(临时)HDFS。安装 Sqoop 后,您可以将数据连同它导入 HDFS,在 HDFS 中运行计算,然后再次使用 Sqoop 将数据导出。
这是我写的一篇关于如何在 AWS EMR 上安装 Sqoop 的文章: http://blog.kylemulka.com/2012/04/how-to-install-sqoop-on-amazon-elastic-map-reduce-emr/
关于java - 与在 Amazon EMR 上运行 Hive/Sqoop 相关的查询?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10276573/
第一段代码工作正常,并给出了我需要的结果。我现在想做的是让它在 'as num' 上返回 3 个数字值对于“as num”上的 3 个不同值,对于同一列上的 3 个不同位置 SELEC
我想分析一些数据以编写定价算法。以下日期可用: 我需要三个变量/维度的函数/相关因子,它显示三个维度(pers_capacity、卧室数量、浴室数量)增长时中位数(价格)的变化。例如Y(#pers_c
正如标题所说 - 我的 Sprite Kit 游戏时不时地在后台崩溃,总是出现此错误 - Exception Type: EXC_BAD_ACCESS (SIGSEGV) Exception Sub
假设我尝试保存以下数据,并且Songs模型的name属性上设置了Phalcon \ Mvc \ Model \ Validator \ PresenceOf验证器 // Get an existing
我有一个 if 控件,如下所示; if (Directory.Exists(System.IO.Path.Combine(systemPath, "Reports", companyName))
有人可以告诉我我们使用 ReadLine() 从文件 (.txt) 中读取特定行吗?现在我想读取文件的全部内容(不仅仅是第一行)。为此我需要使用什么方法。我用谷歌搜索了很多,但找不到解决方案。 我的代
我相信在大学时我用从 C 派生的语言为 FPGA 编写了一个程序。我了解 VHDL 和 verilog 等语言。但是,我不明白的是程序员在使用哪个方面有多少选择?它依赖于FPGA吗?我将使用 Xili
我有一个 if 控件,如下所示; if (Directory.Exists(System.IO.Path.Combine(systemPath, "Reports", companyName))
如何在运行时更改 Dashcode (Javascript) 中图像对象的源? 我试过: var image = document.getElementById("image").object;ima
我有几个相互关联的类,它们将被多种不同的算法使用 例子: struct B; struct A { B* parent; }; struct B { std::vector child
我正在开发一个网站,用户在客户收到的表中输入金额,如果任何客户没有提供分期付款(金额),则用户不会在表中输入任何金额,并且用户希望获取违约者的信息客户以10天为基础。所以我的问题是应该定义什么表和属性
我试图从上一个条目中选择一个值,并每次将该数字加一。我让它工作到选择当前条目值(默认 1000)并递增 1 并重新插入该值(因此每次最终都是 1001)。我需要它来选择该字段的最后一个条目,这样它将变
我不擅长“制作”查询。假设这是我的数据库: artist pics ------------------- -
最近,我要为我的网站做一个即时通知系统。我听说 COMET 在这种情况下必不可少。 我已经搜索 PHP 和 Comet 一段时间了,但是,我发现的指南和文章似乎只是循环中的 ajax 请求。例如,有一
我正在开发一款 iOS 游戏,我希望 clown 在场景外生成,然后向下移动。我的想法是全部创建它们,并将它们以 360 像素的距离放置在不可见的场景中。 像这样: SKSpriteNode *clo
我有以下子订单表。 mysql> select * from suborder; +-------------+------------------+ | order_state | bookin
这可能是一个有点初学者的问题,但考虑到在 Java 中调试编码是相当相关的:什么时候编码与 String 对象相关? 假设我有一个要保存到文件中的字符串对象。 String 对象本身是否使用某种我应该
首先我想说我是 CPP 的新手(我从 cpp11 开始):)考虑以下实体:学生(名字+姓氏)和组(描述+更多学生)。我在 C++ 中创建了以下 2 个类: class Student { privat
我正在尝试在单击该复选框时同步更新我的数据库。我决定使用 aJax,但它似乎无法识别 ajax。 代码:将成为 Switch_Active(this.id) 函数的元素 ... Deactivat
我正在创建一个菜单。菜单如下。 $('.category').mouseover(function() { $(this).removeClass('category').addClass('cate
我是一名优秀的程序员,十分优秀!