gpt4 book ai didi

apache-flink - 如何在 Apache Flink 中对数据集进行排序?

转载 作者:行者123 更新时间:2023-12-04 17:07:25 28 4
gpt4 key购买 nike

我有一个 DataSet> 形式的元组数据集。我希望对字段 String 上的“整个”数据集进行排序,然后仅获取文件中的 Long 值。 Flink 确实提供了排序分区,但这在这里没有帮助,因为我需要对数据集进行完全排序。

最佳答案

您也可以使用 sortPartition()对完整的 DataSet 进行排序如果将并行度设置为 1 :

DataSet<Tuple2<String, Long>> data = ...
DataSet<Tuple2<String, Long>> sorted = data
.sortPartition(0, Order.ASCENDING).setParallelism(1); // sort in one partition
DataSet<Long> longs = sorted.map(new LongExtractor()); // map to extract long

关于apache-flink - 如何在 Apache Flink 中对数据集进行排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43156483/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com