gpt4 book ai didi

hadoop - 使用 Pig 脚本删除文件的第一行和最后一行

转载 作者:可可西里 更新时间:2023-11-01 16:29:40 27 4
gpt4 key购买 nike

我想使用 pig 脚本删除 HDFS 文件的第一行和最后一行。我尝试使用 Rank 实现此目的并且它有效但我应该知道最后一个排名数字以删除它但我的文件是动态的它可以有更多或更少的行,对于那种情况我无法找到任何事物。请帮忙

编辑:我的数据很大,所以我无法创建模式,也无法将它们分组以使用 MIN() 如何实现这一点?

最佳答案

一旦您获得可用的排名,您就可以通过 MIN 和 MAX eval 函数获得要排除的第一个和最后一个排名(即文件的第一行和最后一行)。这样您就无需对排名过滤器进行硬编码。

  1. Eval function MAX
  2. Eval function MIN

注意:这是针对 pig 版本 0.16.0。

关于hadoop - 使用 Pig 脚本删除文件的第一行和最后一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40040690/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com