gpt4 book ai didi

java - 如何使用 java api 在 Apache Spark 数据集中按 desc 排序?

转载 作者:塔克拉玛干 更新时间:2023-11-01 21:32:27 26 4
gpt4 key购买 nike

我正在使用 spark session 读取文件,然后拆分单词并计算单词的迭代次数。我需要按降序显示数据

SparkSession sparkSession = SparkSession
.builder()
.appName("Java Spark SQL basic example")
.config("spark.master", "local")
.getOrCreate();

JavaRDD<Word> textFile = sparkSession
.read()
.textFile("/Users/myname/Documents/README.txt")
.javaRDD()
.flatMap(s -> Arrays.asList(s.split("[\\s.]")).iterator())
.map(w -> {
Word word = new Word();
word.setWord(w.replace(",", ""));
return word;
});

Dataset<Row> df = sparkSession.createDataFrame(textFile, Word.class);
df.groupBy("word").count().orderBy(org.apache.spark.sql.functions.col("count").desc()).show();

当我使用 org.apache.spark.sql.functions.col("count") 时,它工作正常但无法按照 https://spark.apache.org/docs/2.1.1/api/java/org/apache/spark/sql/functions.html#desc(java.lang.String) 中的定义执行

df.sort(asc("部门"), desc("年龄"))

还有How to sort by column in descending order in Spark SQL?没用。我想这是为了scala。这在 Java 中相当于什么?

最佳答案

在 Java 中,您必须以这种方式导入包:

import static org.apache.spark.sql.functions.*

关于java - 如何使用 java api 在 Apache Spark 数据集中按 desc 排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44114642/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com