gpt4 book ai didi

dataframe - 具有多种数据类型的 Pyspark SQL 数据框映射

转载 作者:行者123 更新时间:2023-12-04 17:19:34 25 4
gpt4 key购买 nike

我在胶水中有一个 pyspark 代码,我想在其中创建一个具有 map 结构的数据框,作为整数和字符串的组合。
样本数据:

{ "Candidates": [
{
"jobLevel": 6,
"name": "Steven",
}, {
"jobLevel": 5,
"name": "Abby",
} ] }
因此,我尝试使用以下代码来创建 map 数据类型。但是每次将整数数据类型 jobLevel 转换为字符串数据类型时。有什么建议可以通过保留作业级别的数据类型来完成这项工作吗?
使用的代码:
df = spark.sql("select Supervisor_name, 
map('job_level', INT(job_level_name),
'name', employeeLogin) as Candidates
from dataset_1")

最佳答案

map 值不可能有不同的类型。在这种情况下使用结构。

df = spark.sql("""
select Supervisor_name,
struct(INT(job_level_name) as job_level,
employeeLogin as name
) as Candidates
from dataset_1
""")

关于dataframe - 具有多种数据类型的 Pyspark SQL 数据框映射,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67083543/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com