python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引-6ren

python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引

转载作者：行者123 更新时间：2023-12-05 09:31:48

25

4

我有一个名为 data_clean 的 Pandas 数据框。它看起来像这样:

我想将它转换为 Spark 数据帧，所以我使用 createDataFrame()方法:sparkDF = spark.createDataFrame(data_clean)

但是，这似乎从原始数据框中删除了索引列(名称为 ali、anthony、bill 等的列)。的输出

sparkDF.printSchema()
sparkDF.show()

是

root
 |-- transcript: string (nullable = true)

+--------------------+
|          transcript|
+--------------------+
|ladies and gentle...|
|thank you thank y...|
| all right thank ...|
|                    |
|this is dave he t...|
|                    |
|   ladies and gen...|
|   ladies and gen...|
|armed with boyish...|
|introfade the mus...|
|wow hey thank you...|
|hello hello how y...|
+--------------------+

文档说 createDataFrame() 可以将 pandas.DataFrame 作为输入。我使用的是 Spark 版本“3.0.1”。

SO上其他与此相关的问题都没有提到这个索引列消失的问题:

This one about converting Pandas to Pyspark没有提到索引列消失的问题。
与this one相同
和this one relates to data dropping在转换期间，但更多的是关于窗口函数。

我可能遗漏了一些明显的东西，但是当我从 pandas 数据帧转换为 PySpark 数据帧时，如何保留索引列？

最佳答案

Spark DataFrame 没有索引的概念，所以如果你想保留它，你必须先在 pandas dataframe 中使用 reset_index 将它分配给一个列

您还可以使用 inplace 来避免在停止索引时产生额外的内存开销

df.reset_index(drop=False,inplace=True)

sparkDF = sqlContext.createDataFrame(df)

关于python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68606518/

25

4

0

文章推荐： python - If-else 列表理解列表

文章推荐： ios - Flutter 错误没有名为“scrollBehavior”的命名参数

文章推荐： python - Djongo 查询 BooleanField 失败

文章推荐： r - 如何根据 R 中的条件用字符串替换 NA？

JAVASCRIPT亮度功能-降低
我在堆栈上创建了这段代码: function increase_brightness(hex, percent){ var r = parseInt(hex.substr(1, 2), 16)
mysql - 降低+合并
为什么我能够LOWER COALESCE 中的每个项目，但无法LOWER整个COALESCE，否则我会遇到语法错误？例如: SELECT COALESCE(LOWER(google_provider_
java - 降低 double
我在谷歌上搜索到的所有内容都表明，以下任何一项都会将 double 舍入到小数点后两位。 double roundToFourDecimals(double d) { DecimalForma
降低 flexdashboard/storyboard 中框架的高度
我正在开发一个 flexdashboard/storyboard，我想在其中降低每个帧的高度。那可能吗？示例代码: --- title: "Flex" output: flexdashboard
wpf - 降低 WPF 图像控件中的图像分辨率
我在 WPF 中有一个图像控件。我需要减小图像尺寸控件的宽度和高度。但是当我这样做时，图像看起来不太好。数据丢失更多。所以我想降低图像分辨率而不是仅仅改变图像控件的宽度和高度。任何人都可以帮助我如
c++ - 降低 C++ 中的圈复杂度
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题？通过 editing this post 添加详细信息并澄清问题. 1年前关闭。 Improve this
f# - 降低 API 流畅度的最佳方法？
我正在扩展 Fluent NHibernate，以便更好地与 F# 一起使用(即引用支持)，并希望获得一些关于降低 API 流畅性的反馈。 F# 要求使用返回值，除非它们是单位类型。所以这最终以“|>
biztalk - 降低 BizTalk 接收位置文件输入速度
我们有一个 BizTalk 2010 接收位置，它将获取一个 70MB 的文件，然后使用入站映射(在接收位置)和出站映射(在发送端口)生成一个 1GB 文件。执行上述过程时，SQL Server 会
java - 降低 if-else 语句代码的复杂性
我的代码分析插件提示包含以下代码的方法中的代码复杂性。我注意到以下代码看起来可以组合，但我不知道如何做到这一点: for(Command command : commands) { if (c
降低 R 中 double
我正在寻找一种方法来始终忽略 R 中 float 之间的微小差异(根据 IEC 60559，这些是 double 浮点)，通过使用基本 R 工具而不诉诸 C 或 C++。换句话说，我想“四舍五入” d
c# - Blazor:降低/消除图表的动画速度
在 Blazor 中使用 ChartJs.Blazor 的 BarChart 组件时是否可以降低甚至关闭动画速度？我发现这个 NuGet 包非常有用，但我不知道如何在更新条形图时关闭动画。为了更容易忽
java - 如何让我的游戏变慢(降低 FPS)？
所以我为一个游戏编写了这段代码，现在该游戏的速度非常快。我想降低 FPS，让游戏慢一点。我认为我唯一的出路就是制作一个计时器。但我发现很难找到放置计时器的位置？谁能帮我解决这个问题吗？所以我为一个
java - 降低 Java 时间和空间复杂性的最佳方法是什么？
我正在编写一个程序，我担心它运行所需的时间和所占用的空间。在程序中我使用了一个变量来存储数组的长度: int len=newarray3.length; 现在，我想知道是否能够通过不使用 len 变
azure - 降低 Azure 存储上的文件托管站点的出站带宽成本？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 2 年前。 Improve th
java - 降低 Java 程序的复杂性
我用Java编写了一个程序，但它的计算时间很长，我不知道为什么。有人可以指点一下以降低复杂性吗？此外，在计算一些值(例如 3,100 之后)后，它会给出空指针异常。代码: public class F
python - 降低 Matplotlib 中子图的高度
我有下图，由 1 行 2 列的网格组成。我愿意降低右侧子图的高度(3D PREDICTION)，使棋盘平面看起来有点挤压并显示更好的视角。在左侧子图的顶部添加一些边距(2D PREDICTION)
Python:降低 RGB 颜色的亮度
是否有一种简单的方法可以更改以 RGB 字符串形式给出的颜色的亮度？例如 in_RGB = '#FF0000' --> out_RGB = '#CC0000' 最佳答案将十六进制字符串转换为 R
c - 为什么此代码不能更改(降低)文件的完整性级别？
我已经编写了代码来更改对象(不是进程)(在本例中是文件)的完整性级别。据我们所知，我们从中等完整性级别开始，但我想将其降低到“低”。我想运行完整性较低的 .txt 文件而不是默认介质。我使用 WIN
android - 降低 Android 中的图像分辨率
是否可以在保持原始宽高不变的情况下降低图像分辨率？我已经使用 BitmapFactoryOptions 尝试了几个选项: 在样本大小 inDensity、inScaled、inTargetDensi
android - 降低 Android 设备上的蓝牙信号强度
是否有高级(Java)或低级方式(使用 native 代码)将 Android 设备上的蓝牙信号强度更改为最低？目标是使设备在 20 厘米范围内可被发现？在 Internet 上根本找不到与此相关的

首页

博学

6Ren·AI

商城

python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引