python - spark 可以将数据框拆分为 topandas 的部分-6ren

python - spark 可以将数据框拆分为 topandas 的部分

转载作者：行者123 更新时间：2023-11-28 22:15:07

24

4

我有一个 1000 万条记录的数据框。我的要求是我需要在 pandas 中对这些数据进行一些操作，而且我没有内存让所有 1000 万条记录一次都在 pandas 中。所以我希望能够将它分块并在每个 block 上使用 toPandas

df = sqlContext.sql("select * from db.table")
#do chunking to take X records at a time
#how do I generated chunked_df?
p_df = chunked_df.toPandas()
#do things to p_df

如何将我的数据帧分成相等的 x 部分或按记录数分成多个部分，比如说一次 100 万条。两种解决方案都可以接受，我只需要将其分成较小的 block 进行处理。

最佳答案

一种选择是将 toLocalIterator 与 repartition 和 mapPartitions 结合使用。

import pandas as pd

columns = spark_df.schema.fieldNames()
chunks = spark_df.repartition(num_chunks).rdd.mapPartitions(lambda iterator: [pd.DataFrame(list(iterator), columns=columns)]).toLocalIterator()
for pdf in chunks:
    # do work locally on chunk as pandas df

通过使用toLocalIterator，一次只有一个分区被收集到驱动程序。

另一种选择，在我看来更可取，是将您的工作分布在集群中每个分区中的 pandas block 上。这可以使用 pandas_udf 实现:

from pyspark.sql.functions import spark_partition_id, pandas_udf, PandasUDFType

@pandas_udf(result_schema, PandasUDFType.GROUPED_MAP)
def transform_pandas_df_chunk(pdf):
    result_pdf = ...
    # do ditributed work on a chunk of the original spark dataframe as a pandas dataframe
    return result_pdf

spark_df = spark_df.repartition(num_chunks).groupby(spark_partition_id()).apply(transform_pandas_df_chunk)

关于python - spark 可以将数据框拆分为 topandas 的部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53012312/

24

4

0

文章推荐： python - 将元素放入for循环Python 3的新数组中

文章推荐： Python/Pandas 条件多列划分(示例代码)

文章推荐： python - 使用 format() 居中对齐并设置作为输入给出的精度

文章推荐： ios - QuickBlox ios 音频文件上传问题

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

python - spark 可以将数据框拆分为 topandas 的部分