gpt4 book ai didi

hadoop - 在 pig 脚本中输入零件文件作为输入时,订单不匹配

转载 作者:行者123 更新时间:2023-12-02 21:45:38 25 4
gpt4 key购买 nike

当我尝试以其他 pig 脚本的顺序加载 pig 脚本的输出时,加载的数据正在更改

我的Pig script-1输出中有5个零件文件

part-r-00000
part-r-00001
part-r-00002
part-r-00003
part-r-00004

我想按零件文件名的顺序在另一个脚本中加载该零件文件
当我在Pig脚本2中加载Pig脚本1的输出时
加载的数据不是零件文件的顺序,我按以下方式加载了此输出
SET default_parallel 5;
A = LOAD 'Output' USING PigStorage(‘,’) AS (f1:int, f2:int, f3:int);

Dump A;

DATA in part-r-00000
DATA in part-r-00001
DATA in part-r-00004
DATA in part-r-00003
DATA in part-r-00002

并且每次加载数据的顺序都在变化

有什么解决方案可以按零件文件名的顺序加载数据?

我想不出任何但任何帮助将不胜感激。

最佳答案

您可以使用以下命令加载所有零件文件
xyz = LOAD 'output_path/part-*' using PigStorage() AS (f1:int, f2:int, f3:int);
但这不能保证您将按顺序加载所有零件文件,这里我们只是指定要加载所有零件文件。

关于hadoop - 在 pig 脚本中输入零件文件作为输入时,订单不匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25592167/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com