gpt4 book ai didi

csv - Hazelcast 外部排序。在大 csv 中对记录进行排序

转载 作者:行者123 更新时间:2023-12-04 17:26:10 38 4
gpt4 key购买 nike

我有一个用例,我需要对一个巨大的 csv 文件(比如 1000 万条记录)进行排序,并将结果写入另一个文件。 hazelcast-jet/hazelcast 是否在我的 RAM 有限的情况下提供任何此类外部排序功能。

最佳答案

我目前正致力于将此功能作为我的 Hazelcast Jet GSoC 项目的一部分引入。我使用了我之前开发的 RocksDB 状态后端功能来进行排序,因此您可以对大于内存的数据集进行排序。它目前用于批处理用例,并在您调用 BatchStage.sort(keyFn) 的管道中使用它,其中 keyFn 提取要排序的键。你可以看到这个 PR 上的代码

关于csv - Hazelcast 外部排序。在大 csv 中对记录进行排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63266152/

38 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com