gpt4 book ai didi

json - PySpark:类型错误:col 应该是 Column

转载 作者:行者123 更新时间:2023-12-02 01:31:21 24 4
gpt4 key购买 nike

我正在尝试从嵌套 JSON 结构创建数据帧,但遇到了一个我不理解的问题。我已经在 J​​SON 中分解了一个字典数组结构,现在我尝试访问这些字典并使用其中的值创建列。这就是字典的样子:

enter image description here

索引 1 处的值(主题、位置等)根据架构位于键“name”下: enter image description here

但是,当我尝试时:

dataframe = dataframe.withColumn("keywords_name", dataframe.keywords_exp.name)

它抛出错误:

PySpark: TypeError: col should be Column

字典中的任何其他键(即“value”)都不存在此类问题。

我真的不明白这个问题,我是否必须假设数据存在不一致?如果是,您能推荐一种检查甚至躲避它们的方法吗?


编辑:Khalid 有一个预定义架构的好主意。我尝试通过将其中一个 JSON 文件存储为一种默认文件来实现此目的。我想从该文件中提取架构,如下所示:

schemapath = 'default_schema.json'
with open(schemapath) as f:
d = json.load(f)
schemaNew = StructType.fromJson(d)
responseDf = spark.read.schema(schemaNew).json("apiResponse.json", multiLine=True)

但是,行

schemaNew = StructType.fromJson(d)

抛出以下错误:

KeyError: 'fields'

不知道这个“字段”来自哪里......

最佳答案

Spark 中的错误说明了真相。

dataframe.withColumn("keywords_name", dataframe.keywords_exp.name)

TypeError: col should be Column

DataFrame.withColumn文档告诉您如何调用其输入参数及其数据类型:

  • Parameters:
    - colName: str
    string, name of the new column.
    - col: Column
    a Column expression for the new column.

因此,col 是参数的名称,Column 是其类型。 ColumnwithColumn 期望作为名为 col 的参数获取的数据类型。它实际上收到了什么?它收到了dataframe.keywords_exp.name。但它是什么数据类型?

print(type(dataframe.keywords_exp.name))
# <class 'method'>

可以看出,它不是预期的类型Column...

要从Struct 的字段获取Column,您必须使用不同的语法。

注意:数据框中的数据类型并不是您想象的那样。你不再有口述了。相反,您有一个结构类型列。旧字典中的键现在是结构类型列的字段名称。

要访问结构体字段,您应该使用以下任一选项:

df = dataframe.withColumn("keywords_name", F.col("keywords_exp.name"))
df = dataframe.withColumn("keywords_name", dataframe.keywords_exp['name'])

(F.col("keywords_exp.name")dataframe.keywords_exp['name'] 都是 Column 类型.)

这是一个与您的具有相同架构的数据框。您可以看到 withColumn 效果很好:

from pyspark.sql import functions as F
dataframe = spark.createDataFrame(
[(("N", "glocations", 1, "Cuba"),)],
'keywords_exp struct<major:string,name:string,rank:bigint,value:string>')
dataframe.printSchema()
# root
# |-- keywords_exp: struct (nullable = true)
# | |-- major: string (nullable = true)
# | |-- name: string (nullable = true)
# | |-- rank: long (nullable = true)
# | |-- value: string (nullable = true)

df = dataframe.withColumn("keywords_name", F.col("keywords_exp.name"))

df.show()
# +--------------------+-------------+
# | keywords_exp|keywords_name|
# +--------------------+-------------+
# |{N, glocations, 1...| glocations|
# +--------------------+-------------+

关于json - PySpark:类型错误:col 应该是 Column,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73233593/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com