gpt4 book ai didi

pyspark - 列出到 pyspark 中的 DataFrame

转载 作者:行者123 更新时间:2023-12-04 16:30:26 25 4
gpt4 key购买 nike

谁能告诉我如何将包含字符串的列表转换为 pyspark 中的数据框。我正在使用 python 3.6 和 spark 2.2.1。我刚刚开始学习 Spark 环境,我的数据如下所示

my_data =[['apple','ball','ballon'],['cat','camel','james'],['none','focus','cake']]

现在,我想如下创建一个数据框

---------------------------------
|ID | words |
---------------------------------
1 | ['apple','ball','ballon'] |
2 | ['cat','camel','james'] |

我什至想添加数据中未关联的 ID 列

最佳答案

您可以将列表转换为 Row 对象列表,然后使用 spark.createDataFrame 从您的数据中推断架构:

from pyspark.sql import Row
R = Row('ID', 'words')

# use enumerate to add the ID column
spark.createDataFrame([R(i, x) for i, x in enumerate(my_data)]).show()
+---+--------------------+
| ID| words|
+---+--------------------+
| 0|[apple, ball, bal...|
| 1| [cat, camel, james]|
| 2| [none, focus, cake]|
+---+--------------------+

关于pyspark - 列出到 pyspark 中的 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48290759/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com