gpt4 book ai didi

hadoop - 合并多个目录的文件作为Hadoop输入

转载 作者:行者123 更新时间:2023-12-02 21:51:32 24 4
gpt4 key购买 nike

有两个文件夹A和B,每个文件夹都有n个文档。我想处理A和B中文件对的每种组合,即(A0,B0),(A0,B1),...,(A1,B0),(A1,B1),...(An,B0 ),...,(An,Bn)。

有机会为该工作编写派生的(File)InputFormat吗?还是最好将一个文档集合作为辅助数据(使用静态列表)共享,而仅将另一个文档集合作为输入数据处理?

最佳答案

在我看来,您要实现的目标是交叉联接。 Hive,从0.10版本开始已经支持交叉联接,因此您可能要使用它。

关于hadoop - 合并多个目录的文件作为Hadoop输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20374059/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com