gpt4 book ai didi

apache-spark - 您如何使用PySpark解析来自现有临时表的json字符串?

转载 作者:行者123 更新时间:2023-12-03 09:53:04 26 4
gpt4 key购买 nike

我有一个具有这样的列的现有Spark数据框:

--------------------
pid | response
--------------------
12 | {"status":"200"}

响应是一个字符串列。
有没有一种方法可以将其转换为JSON并提取特定字段?可以在Hive中使用横向 View 吗?我在网上查找了一些使用爆炸和后来的 View 的示例,但似乎不适用于Spark 2.1.1。

最佳答案

在pyspark.sql.functions中,您可以使用from_json,get_json_object,json_tuple中的任何一个从json字符串中提取字段,如下所示,

>>from pyspark.sql.functions import json_tuple,from_json,get_json_object
>>> from pyspark.sql import SparkSession
>>> spark = SparkSession.builder.getOrCreate()
>>> l = [(12, '{"status":"200"}'),(13,'{"status":"200","somecol":"300"}')]
>>> df = spark.createDataFrame(l,['pid','response'])
>>> df.show()
+---+--------------------+
|pid| response|
+---+--------------------+
| 12| {"status":"200"}|
| 13|{"status":"200",...|
+---+--------------------+

>>> df.printSchema()
root
|-- pid: long (nullable = true)
|-- response: string (nullable = true)

Using json_tuple :
>>> df.select('pid',json_tuple(df.response,'status','somecol')).show()
+---+---+----+
|pid| c0| c1|
+---+---+----+
| 12|200|null|
| 13|200| 300|
+---+---+----+

Using from_json:
>>> schema = StructType([StructField("status", StringType()),StructField("somecol", StringType())])
>>> df.select('pid',from_json(df.response, schema).alias("json")).show()
+---+----------+
|pid| json|
+---+----------+
| 12|[200,null]|
| 13| [200,300]|
+---+----------+

Using get_json_object:
>>> df.select('pid',get_json_object(df.response,'$.status').alias('status'),get_json_object(df.response,'$.somecol').alias('somecol')).show()
+---+------+-------+
|pid|status|somecol|
+---+------+-------+
| 12| 200| null|
| 13| 200| 300|
+---+------+-------+

关于apache-spark - 您如何使用PySpark解析来自现有临时表的json字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46084158/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com