gpt4 book ai didi

apache-spark - 如何在 Apache Spark 中拆分输入文件

转载 作者:行者123 更新时间:2023-12-04 04:05:12 26 4
gpt4 key购买 nike

假设我有一个大小为 100MB 的输入文件。它包含 CSV 格式的大量点(经纬度对)。我应该怎么做才能在 Apache Spark 中将输入文件拆分为 10 个 10MB 文件,或者如何自定义拆分。

注意:我想处理每个映射器中点的子集。

最佳答案

Spark 的抽象不提供明确的数据拆分。但是,您可以通过多种方式控制并行度。

假设您使用 YARN,HDFS 文件会自动拆分为 HDFS 块,并在 Spark 操作运行时同时处理它们。

除了 HDFS 并行性之外,还可以考虑将分区器与 PairRDD 一起使用。 PairRDD 是键值对 RDD 的数据类型,分区器管理从键到分区的映射。默认分区程序读取 spark.default.parallelism .分区器有助于控制数据的分布及其在 PairRDD 特定操作中的位置,例如,reduceByKey .

查看以下有关 Spark 数据并行性的文档。

http://spark.apache.org/docs/1.2.0/tuning.html

关于apache-spark - 如何在 Apache Spark 中拆分输入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27619230/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com