gpt4 book ai didi

python - spark 数据帧是分布式的吗?

转载 作者:行者123 更新时间:2023-12-04 17:53:23 26 4
gpt4 key购买 nike

我正在将批处理操作转换为 Spark 作业,目的是在 AWS EMR 中运行;这项工作的核心是连接两个相当大的数据集。

操作的核心是连接:

table_1: loaded from json file_1
table_2: loaded from parquet file_2
joined_table = table_1.join(table_2)
.map(some_data_transformations)

store_it_off(joined_table)

从google定义来看,一个dataFrame是一个表格结构,一个Rdd是分布式的;但是,我看到其他注释说 dataFrames 是基于 Rdds 实现的。数据帧是分布式的吗?它们是否仅在某些并行化步骤后才分布?

最佳答案

是的,Spark数据帧是分布式的
来自 spark 权威指南:

..spark dataFrame can span thousands of computers.

但是这只在 scala 和 java 中可用,
来自同一本书:

... Python/R DataFrames exist on one machine rather than multiple machines

关于python - spark 数据帧是分布式的吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42512978/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com