gpt4 book ai didi

java - Spark 中的数据帧列表

转载 作者:太空宇宙 更新时间:2023-11-04 09:31:55 25 4
gpt4 key购买 nike

建议在 Spark 中创建数据帧列表吗?

List<Dataset<Row>> list = some method 

方法读取 x 个文件以从中创建 x 个数据帧。这些数据帧被推送到列表中。

此方法从驱动程序中调用,并返回通过将数据集加入列表中而创建的单个数据帧。

我很困惑列表将在驱动程序节点还是工作节点上形成?

建议创建数据框列表吗?

最佳答案

请记住,spark 使用延迟执行,并且数据帧实际上只是执行图而不是数据(除非您已缓存数据)。在这种情况下,该列表将位于驱动程序上,等待您对数据帧执行强制执行的操作,例如写入数据。

您是否试图将所有这些数据帧合并在一起?在不确切知道您要做什么的情况下,通常最好将数据帧总数保持在合理的数字 <1k 范围内,因为每个数据帧都是执行图中需要优化的新节点。最终你想要做的事情将决定它是否合理。

关于java - Spark 中的数据帧列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57013580/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com