gpt4 book ai didi

python - 如何从 PySpark 中的字符串获取列表

转载 作者:太空宇宙 更新时间:2023-11-03 14:01:39 24 4
gpt4 key购买 nike

PySpark 中是否有类似于 eval 函数的等效函数。

我正在尝试将 Python 代码转换为 PySpark

我正在查询数据框,其中一列的数据如下所示,但采用字符串格式

[{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}]

假设“x”是数据框中保存该值的列。

现在我想传入字符串列“x”并获取列表,以便我可以将其传递给mapPartition函数。

我想避免迭代驱动程序上的每一行,这就是我这样想的原因。

在 Python 中使用 eval() 函数(如果使用):我得到以下输出:

x = "[{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}]"

list = eval(x)

for i in list: print i

输出:(这也是我在 PySpark 中想要的)

{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}
{u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}
{u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}

如何在 PySpark 中执行此操作?

最佳答案

您可以通过使用 from_json 函数将 json 字符串转换为实际的 json 受益。为此,您必须定义一个与 json 字符串匹配的 schema 。最后使用 explode 函数将结构数组分隔到不同的行,就像使用 eval 一样。

如果您的数据为

x = "[{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}]"

然后创建dataframe

df = sqlContext.createDataFrame([(x,),], ["x"])

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|x |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|[{u'date': u'2015-02-08', u'by': u'abc@gg.com', u'value': u'NA'}, {u'date': u'2016-02-08', u'by': u'dfg@yaa.com', u'value': u'applicable'}, {u'date': u'2017-02-08', u'by': u'wrwe@hot.com', u'value': u'ufc'}]|
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+


root
|-- x: string (nullable = true)

使用 json

正如我所解释的,您需要一个 schemaregexp_replace 函数、from_json 函数和 explode 函数如

from pyspark.sql import types as T
schema = T.ArrayType(T.StructType([T.StructField('date', T.StringType()), T.StructField('by', T.StringType()), T.StructField('value', T.StringType())]))

from pyspark.sql import functions as F
df = df.withColumn("x", F.explode(F.from_json(F.regexp_replace(df['x'], "(u')", "'"), schema=schema)))

这应该给你

+-----------------------------------+
|x |
+-----------------------------------+
|[2015-02-08,abc@gg.com,NA] |
|[2016-02-08,dfg@yaa.com,applicable]|
|[2017-02-08,wrwe@hot.com,ufc] |
+-----------------------------------+

root
|-- x: struct (nullable = true)
| |-- date: string (nullable = true)
| |-- by: string (nullable = true)
| |-- value: string (nullable = true)

如果您需要问题中提到的 json 字符串,那么您可以使用 to_json 函数作为

df = df.withColumn("x", F.to_json(df['x']))

这会给你

+-------------------------------------------------------------+
|x |
+-------------------------------------------------------------+
|{"date":"2015-02-08","by":"abc@gg.com","value":"NA"} |
|{"date":"2016-02-08","by":"dfg@yaa.com","value":"applicable"}|
|{"date":"2017-02-08","by":"wrwe@hot.com","value":"ufc"} |
+-------------------------------------------------------------+

仅使用字符串

如果您不想经历 json 的所有复杂性,那么您可以简单地使用字符串。为此,您需要嵌套regex_replacesplitexplode函数作为

from pyspark.sql import functions as F
df = df.withColumn("x", F.explode(F.split(F.regexp_replace(F.regexp_replace(F.regexp_replace(df['x'], "(u')", "'"), "[\\[\\]\s]", ""), "},\\{", "};&;{"), ";&;")))

这应该给你

+-------------------------------------------------------------+
|x |
+-------------------------------------------------------------+
|{'date':'2015-02-08','by':'abc@gg.com','value':'NA'} |
|{'date':'2016-02-08','by':'dfg@yaa.com','value':'applicable'}|
|{'date':'2017-02-08','by':'wrwe@hot.com','value':'ufc'} |
+-------------------------------------------------------------+

关于python - 如何从 PySpark 中的字符串获取列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49204024/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com