gpt4 book ai didi

python - 使用 Python 代码处理 Hadoop 中的整个文件(最好在 Dumbo 中)

转载 作者:可可西里 更新时间:2023-11-01 14:59:51 26 4
gpt4 key购买 nike

这似乎是一个非常常见的用例,但在 Hadoop 中很难做到(使用 WholeFileRecordReader 类是可能的)。在 Dumbo 或 Pig 中有可能吗?有谁知道使用 Dumbo 或 Pig 将整个文件作为 map task 处理的方法吗?

最佳答案

WholeFileRecordReader 表示不拆分输入文件?如果是这样,将 mapred.min.split.size 定义为一个非常大的值,mapreduce 和 Pig 都会接受它。

关于python - 使用 Python 代码处理 Hadoop 中的整个文件(最好在 Dumbo 中),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7247179/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com