gpt4 book ai didi

hadoop - 如何在 Pig 中过滤时间戳

转载 作者:可可西里 更新时间:2023-11-01 15:41:16 24 4
gpt4 key购买 nike

我有这个模式的表:

(id: chararray, ts: long, data: chararray)

其中ts代表时间戳,以UNIX时间存储;

因为数据会更新,更新后ts会被修改,所以id不会改变。但是所有这些旧记录和新记录都将存储在 hdfs 中。

我只是想看看最新的数据,所以我这样写pig代码:

grp = GROUP table BY id;

rst = FOREACH grp {
latest = FILTER table BY ts == MAX(table.ts);
GENERATE latest.id AS id,
latest.data AS data;
}

但是 Pig 代码似乎不起作用,所以有人可以给我建议让这段代码起作用吗?

最佳答案

您是否尝试过按 ts 降序排序?

LATEST = LIMIT (ORDER table BY ts desc) 1;
dump LATEST;

关于hadoop - 如何在 Pig 中过滤时间戳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12469660/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com