gpt4 book ai didi

scala - 通过使用 Scala 仅选择每第 n 个元素来减小 Spark Dataframe 的大小

转载 作者:行者123 更新时间:2023-12-02 15:05:29 25 4
gpt4 key购买 nike

我得到了一个 org.apache.spark.sql.Dataframe = [t: double, S: long]

enter image description here

现在我想通过 val n=2

每第二个元素减少 Dataframe

结果应该是

enter image description here

你会如何解决这个问题?

我尝试插入第三列并使用模数,但无法解决。

最佳答案

如果我对您的问题的理解正确,您希望保留 dataframe 中的每个 nth 元素并删除所有其他行。假设 t 不是您的 行索引,添加一个索引行,然后按以下条件过滤它:

import org.apache.spark.sql.expressions._

val n = 2
val filteredDF = df.withColumn("index", row_number().over(Window.orderBy(monotonically_increasing_id))).filter($"index" % n === 0)

关于scala - 通过使用 Scala 仅选择每第 n 个元素来减小 Spark Dataframe 的大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46991818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com