gpt4 book ai didi

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码?

转载 作者:可可西里 更新时间:2023-11-01 15:39:00 25 4
gpt4 key购买 nike

我有两个大文件并将它们上传到名为“ccssdd”的 Amazon S3 存储桶中,并创建了一个名为 data 的文件夹:数据/友谊.xml数据/用户.xml

用户结构是

    <user>
<id>1</id>
<age>24</age>
<x>4</x>
<y>7</y>
<interest>football</ineterest>
</user>

<user>
..

    <friendship>
<user1>1</user1>
<user2>3</user2>
</friendship>
<friendship>

..

我需要编写一个作业 jar 以在 Amazon Elastic Map Reduce 上运行它以计算:找出每个用户的 friend 数。

我知道我应该从每个友谊元素中生成对作为 map 函数的输出在 reduce 函数中,我应该将每个用户 ID 的“1”相加。

1_ 我知道我可以在 eclipse 中运行我的应用程序以生成 .jar 作业文件,但我不知道我应该下载哪些库并将其添加到项目中。

2- 我真的不知道如何将我的应用程序连接到 s3!并逐个获取 xml 元素并从中提取用户 ID

请帮我解决这个问题。我发现这个教程与我的问题非常相似,但是当我将它复制到 Eclipse 时,几乎每一行都会出错,没有一个 .org 库是已知的并且......另外,我不知道如何访问 S3 上的数据文件 ...

最佳答案

这是一种方法。

  • 使用来自 Cloudera、MaprR 或任何地方的分发版,并使用分发版中可用的 Hadoop 版本(jar)。确保你在本地彻底测试你的工作,这样你就有信心一切正常。这是因为即使您的工作在失败前只进行了 30 秒,亚马逊也会按小时(每台机器)向您收费。

  • 一旦您有信心,就创建一个“ super jar”,其中包含您所有的代码以及您使用的 Hadoop jar 中的所有类。

  • 按照这个优秀的 tutorial 中的描述将 jar 和数据上传到 S3 . EMR 可与 S3 无缝协作。

  • 按照教程中的描述运行作业。如果出现问题,请在作业完成后稍等片刻查看日志,因为存在滞后。

希望对您有所帮助。

关于hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20026019/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com