gpt4 book ai didi

apache-spark - PySpark "explode"列中的字典

转载 作者:行者123 更新时间:2023-12-04 04:41:55 32 4
gpt4 key购买 nike

我在 spark 数据框中有一列“true_recoms”:

-RECORD 17----------------------------------------------------------------- 
item | 20380109
true_recoms | {"5556867":1,"5801144":5,"7397596":21}

我需要“explode ”这个列来得到这样的东西:
item        | 20380109                                                                                                                                                                  
recom_item | 5556867
recom_cnt | 1
..............
item | 20380109
recom_item | 5801144
recom_cnt | 5
..............
item | 20380109
recom_item | 7397596
recom_cnt | 21

我试过使用 from_json 但它不起作用:
    schema_json = StructType(fields=[
StructField("item", StringType()),
StructField("recoms", StringType())
])
df.select(col("true_recoms"),from_json(col("true_recoms"), schema_json)).show(5)

+--------+--------------------+------+
| item| true_recoms|true_r|
+--------+--------------------+------+
|31746548|{"32731749":3,"31...| [,]|
|17359322|{"17359392":1,"17...| [,]|
|31480894|{"31480598":1,"31...| [,]|
| 7265665|{"7265891":1,"503...| [,]|
|31350949|{"32218698":1,"31...| [,]|
+--------+--------------------+------+
only showing top 5 rows

最佳答案

架构定义不正确。您声明为 struct有两个字符串字段

  • item
  • recoms

  • 而文档中不存在任何字段。

    不幸的是 from_json只能返回结构或结构数组,因此将其重新定义为

    MapType(StringType(), LongType())

    不是一个选择。

    我个人会使用 udf
    from pyspark.sql.functions import udf, explode
    import json

    @udf("map<string, bigint>")
    def parse(s):
    try:
    return json.loads(s)
    except json.JSONDecodeError:
    pass

    可以这样应用

    df = spark.createDataFrame(
    [(31746548, """{"5556867":1,"5801144":5,"7397596":21}""")],
    ("item", "true_recoms")
    )

    df.select("item", explode(parse("true_recoms")).alias("recom_item", "recom_cnt")).show()
    # +--------+----------+---------+
    # | item|recom_item|recom_cnt|
    # +--------+----------+---------+
    # |31746548| 5801144| 5|
    # |31746548| 7397596| 21|
    # |31746548| 5556867| 1|
    # +--------+----------+---------+

    关于apache-spark - PySpark "explode"列中的字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50683894/

    32 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com