gpt4 book ai didi

python - 如何在 pyspark 中将 Dataframe 转换为 RDD?

转载 作者:行者123 更新时间:2023-12-01 01:56:52 24 4
gpt4 key购买 nike

我需要将数据帧转换为RDD,并需要对其应用一些核心操作。尝试了以下事情。它正在转换为列表、行或元组格式。但一些核心功能或无法使用 .split() 等功能。

尝试了以下方法:

df.rdd.map(list)

df.rdd.map(tuple)

df.rdd

我正在尝试的示例代码

rdd=load_df.rdd.map(list)
conv_rdd= rdd.map(lambda x:x.split(","))

需要从这里开始执行一些操作

最佳答案

数据框是 Row 的数据集对象。当您运行df.rdd时,返回值的类型为RDD<Row>

现在,Row没有.split方法。您可能想在行的某个字段上运行它。所以你需要打电话

df.rdd.map(lambda x:x.stringFieldName.split(","))

Split 必须在行的值上运行,而不是 Row对象本身。

关于python - 如何在 pyspark 中将 Dataframe 转换为 RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50068131/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com