gpt4 book ai didi

python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引

转载 作者:行者123 更新时间:2023-12-05 09:31:48 25 4
gpt4 key购买 nike

我有一个名为 data_clean 的 Pandas 数据框。它看起来像这样: enter image description here

我想将它转换为 Spark 数据帧,所以我使用 createDataFrame()方法:sparkDF = spark.createDataFrame(data_clean)

但是,这似乎从原始数据框中删除了索引列(名称为 ali、anthony、bill 等的列)。的输出

sparkDF.printSchema()
sparkDF.show()

root
|-- transcript: string (nullable = true)

+--------------------+
| transcript|
+--------------------+
|ladies and gentle...|
|thank you thank y...|
| all right thank ...|
| |
|this is dave he t...|
| |
| ladies and gen...|
| ladies and gen...|
|armed with boyish...|
|introfade the mus...|
|wow hey thank you...|
|hello hello how y...|
+--------------------+

文档说 createDataFrame() 可以将 pandas.DataFrame 作为输入。我使用的是 Spark 版本“3.0.1”。

SO上其他与此相关的问题都没有提到这个索引列消失的问题:

我可能遗漏了一些明显的东西,但是当我从 pandas 数据帧转换为 PySpark 数据帧时,如何保留索引列?

最佳答案

Spark DataFrame 没有索引的概念,所以如果你想保留它,你必须先在 pandas dataframe 中使用 reset_index 将它分配给一个列

您还可以使用 inplace 来避免在停止索引时产生额外的内存开销

df.reset_index(drop=False,inplace=True)

sparkDF = sqlContext.createDataFrame(df)

关于python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68606518/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com