gpt4 book ai didi

scala - 如何从 Spark DataFrame 中选择一个稳定的行子集?

转载 作者:行者123 更新时间:2023-12-04 20:31:18 24 4
gpt4 key购买 nike

我已将文件加载到 Zeppelin 笔记本中的 DataFrame 中,如下所示:

val df = spark.read.format("com.databricks.spark.csv").load("some_file").toDF("c1", "c2", "c3")

这个 DataFrame 有 > 1000 万行,我想开始只处理行的一个子集,所以我使用限制:
val df_small = df.limit(1000)

但是,现在当我尝试根据其中一列的字符串值过滤 DataFrame 时,每次运行以下命令时都会得到不同的结果:
df_small.filter($"c1" LIKE "something").show()

如何为我运行的每个过滤器获取保持稳定的 df 子集?

最佳答案

Spark 作为延迟加载工作,因此仅在语句 .show以上2条语句将执行。你可以写df_small到文件并每次单独阅读或执行 df_small.cache()

关于scala - 如何从 Spark DataFrame 中选择一个稳定的行子集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45629772/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com