gpt4 book ai didi

python - 如何使用 avro 文件作为 MRJob 作业的输入?

转载 作者:可可西里 更新时间:2023-11-01 14:58:59 25 4
gpt4 key购买 nike

我需要将 avro 文件作为 mrjob hadoop 作业的输入。除非我将额外的命令传递给 hadoop streaming jar,否则我找不到任何关于如何执行此操作的文档。这会使开发复杂化,因为我一直在使用 inline runner 在本地进行测试。

是否可以使用 inline runner 通过 MRJob 读取 avro 文件?

最佳答案

您需要的是告诉 Hadoop 您的 Hadoop 作业的“输入格式”是什么格式:

hadoop jar hadoop-streaming.jar 
;; other params go here
-inputformat org.apache.avro.mapred.AvroAsTextInputFormat

但我不确定您是如何运行 MRJobs 的。如果您使用的是 Plain Hadoop,我之前的解决方案就可以使用。

关于python - 如何使用 avro 文件作为 MRJob 作业的输入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22375333/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com