gpt4 book ai didi

pandas - apache arrow - 并行处理的充分性

转载 作者:行者123 更新时间:2023-12-03 23:46:01 26 4
gpt4 key购买 nike

我有一个庞大的数据集,正在使用 Apache Spark 进行数据处理。
使用 Apache Arrow,我们可以将兼容 Spark 的数据帧转换为兼容 Pandas 的数据帧并在其上运行操​​作。
通过转换数据帧,它会达到 Spark 中看到的并行处理的性能还是会像 Pandas 一样?

最佳答案

正如您在文档 here 中看到的那样

Note that even with Arrow, toPandas() results in the collection of all records in the DataFrame to the driver program and should be done on a small subset of the data


当数据移动到 Pandas 数据帧时,数据将发送给驱动程序。这意味着如果驱动程序需要处理的数据过多,您可能会遇到性能问题。因此,如果您决定使用 Pandas,请在调用 toPandas() 之前尝试对数据进行分组。方法。
一旦转换为 Pandas 数据帧,它就不会具有相同的并行化,因为 Spark 执行程序不会在该场景中工作。 Arrow 的美妙之处在于可以直接从 Spark 数据框移动到 Pandas,但是你要考虑数据的大小
另一种可能性是使用其他框架,如 Koalas .它具有 Pandas 的一些“优点”,但已集成到 Spark 中。

关于pandas - apache arrow - 并行处理的充分性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62707855/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com