gpt4 book ai didi

java - Spark DataFrame如何使用java获取最新的n行

转载 作者:行者123 更新时间:2023-12-01 21:58:39 25 4
gpt4 key购买 nike

我是 Spark 新手。现在我正在尝试将两个 DataFrame 连接在一起。我想将数据帧保留在 5000 行中。由于我的第一个数据帧已获得 5000 行,因此我需要获取最新的 4000 行,因为我的第二个数据帧有 1000 行。有人可以帮助我如何获取第一个数据框中包含最新 4000 行的数据框吗?提前致谢。

最佳答案

我不确定您真正希望通过这种方式实现什么,但如果您使用 Spark 1.5,您可以使用 monotonicallyIncreasingId 执行类似的操作:

val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000)

它将按数据帧中每行的 ID 降序排序,然后将结果限制为前 4000 条。

否则,您可以使用任何您知道持续增加的列来执行相同的操作。

关于java - Spark DataFrame如何使用java获取最新的n行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34012106/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com