gpt4 book ai didi

python - 在 PySpark 中读取文本文件时有没有办法控制分区数

转载 作者:太空宇宙 更新时间:2023-11-03 14:14:52 25 4
gpt4 key购买 nike

我正在 PySpark 中使用以下命令读取文本文件

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")

有没有办法指定 RDD rating_data_raw 应该分成多少个分区?我想指定大量分区以提高并发性。

最佳答案

正如其他用户所说,您可以通过在 textFile 的可选参数 minPartitions 中设置读取文件时设置将创建的最小分区数。 .

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128)

实现此目的的另一种方法是使用 repartitioncoalesce ,如果你需要减少分区的数量,你可以使用coalesce,否则你可以使用repartition

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv").repartition(128)

关于python - 在 PySpark 中读取文本文件时有没有办法控制分区数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34265158/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com