gpt4 book ai didi

java - Spark DataFrame - .distinct() 不起作用?

转载 作者:行者123 更新时间:2023-12-01 09:31:03 25 4
gpt4 key购买 nike

我使用以下代码:

df = df.select(
df.col("col").as("col1"),
df.col("col_").as("col2");
df = df.select("*").distinct();
df= df.sample(true, 0.8).limit(300);
df= df.withColumn("random", lit(0));

df.show();

我想选择不同的行,然后进行采样并将其限制为 300 条记录,但是 df.show(); 显示各处都有重复的行。我错过了什么?

谢谢!

最佳答案

分配给新的数据框

val myDupeDF=myDF.select(myDF.col("EmpName"))
myDupeDF.show()
val myDistinctDf=myDF.select(myDF.col("EmpName")).distinct
myDistinctDf.show();
+-------+
|EmpName|
+-------+
| John|
| John|
| John|
+-------+

不同之后

+-------+
|EmpName|
+-------+
| John|
+-------+

更新所有列我选择了所有仍然对我有用的列。我使用的是spark 1.5.1

  val myDupeDF=myDF.select(myDF.col("*"))
myDupeDF.show()
val myDistinctDf=myDF.select(myDF.col("*")).distinct
myDistinctDf.show();

结果:

+-----+-------+------+----------+
|EmpId|EmpName|Salary|SalaryDate|
+-----+-------+------+----------+
| 1| John|1000.0|2016-01-01|
+-----+-------+------+----------+

-

关于java - Spark DataFrame - .distinct() 不起作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39395875/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com