gpt4 book ai didi

python - Hadoop Streaming with TextInputFormat 和 Python - 跟踪行号

转载 作者:可可西里 更新时间:2023-11-01 16:07:14 27 4
gpt4 key购买 nike

我正在尝试计算方阵上每条对角线的总和。我正在使用 Python 和 Hadoop 流式处理,但我找不到任何方法来配置 Hadoop 流式处理以获取每行的偏移量 this guy说,使用 TextInputFormat

还有一个question在 StackOverflow 上询问同样的事情,但没有关于如何去做的回应。和 hadoop doc说了一些关于丢弃 LongWritable 类的键 但我不确定这是否是偏移量。

如何配置作业以获得偏移量?我是否需要创建一个从 TextInputFormat 派生的新类而不返回 LongWritable?如果我不懂 Java,我该怎么做?谢谢

最佳答案

我对 StackOverflow 做了更多研究,还有另一个人在问 same thing但没有人回答,尽管他确实说使用 -inputformat org.apache.hadoop.mapred.lib.NLineInputFormat 有效,但完成这项工作需要很多时间。

我知道对此可能有更好的答案,但在有人回答之前,这已经足够好了。

关于python - Hadoop Streaming with TextInputFormat 和 Python - 跟踪行号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35172122/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com