gpt4 book ai didi

ruby - 使用 SequenceFile 的 Hadoop 流式处理(在 AWS 上)

转载 作者:可可西里 更新时间:2023-11-01 14:23:36 25 4
gpt4 key购买 nike

我有大量 Hadoop 序列文件,我想在 AWS 上使用 Hadoop 进行处理。我现有的大部分代码都是用 Ruby 编写的,因此我想在 Amazon EMR 上使用 Hadoop Streaming 以及我的自定义 Ruby Mapper 和 Reducer 脚本。

我找不到任何关于如何将 Sequence Files 与 Hadoop Streaming 集成以及如何将输入提供给我的 Ruby 脚本的文档。我会很感激一些关于如何启 Action 业(直接在 EMR 上,或者只是一个普通的 Hadoop 命令行)以使用 SequenceFiles 的说明,以及一些关于如何期望将数据提供给我的脚本的信息。

--编辑:我之前错误地提到了 StreamFiles 而不是 SequenceFiles。我认为我的数据文档不正确,但很抱歉。有了变化,答案就很简单了。

最佳答案

答案是将输入格式指定为 Hadoop 的命令行参数。

-输入格式 SequenceFileAsTextInputFormat

您可能希望将 SequenceFile 作为文本,但如果更合适的话,也可以使用 SequenceFileAsBinaryInputFormat

关于ruby - 使用 SequenceFile 的 Hadoop 流式处理(在 AWS 上),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11967530/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com