apache-spark - 如何使用 Spark SQL 获取 MapType 的 ArrayType 的最大值？-6ren

apache-spark - 如何使用 Spark SQL 获取 MapType 的 ArrayType 的最大值？

转载作者：行者123 更新时间：2023-12-04 05:01:20

24

4

我有以下 Spark DataFrame:

df = sql.createDataFrame([
        (1, [
                {'name': 'john', 'score': '0.8'},
                {'name': 'johnson', 'score': '0.9'},
            ]),
        (2, [
                {'name': 'jane', 'score': '0.9'},
                {'name': 'janine', 'score': '0.4'},
            ]),
        (3, [
                {'name': 'sarah', 'score': '0.2'},
                {'name': 'sara', 'score': '0.9'},
            ]),
    ], schema=['id', 'names'])

Spark 正确推断模式:

root
 |-- id: long (nullable = true)
 |-- names: array (nullable = true)
 |    |-- element: map (containsNull = true)
 |    |    |-- key: string
 |    |    |-- value: string (valueContainsNull = true)

对于每一行，我想选择得分最高的名字。我可以使用 Python UDF 执行此操作，如下所示:

import pyspark.sql.types as T
import pyspark.sql.functions as F

def top_name(names):
    return sorted(names, key=lambda d: d['score'], reverse=True)[0]['name']

top_name_udf = F.udf(top_name, T.StringType())

df.withColumn('top_name', top_name_udf('names')) \
    .select('id', 'top_name') \
    .show(truncate=False)

根据需要，您将获得:

+---+--------+
|id |top_name|
+---+--------+
|1  |johnson |
|2  |jane    |
|3  |sara    |
+---+--------+

如何使用 Spark SQL 执行此操作？是否可以在没有 Python UDF 的情况下执行此操作，以便数据不会在 Python 和 Java 之间序列化？¹

¹ 不幸的是，我运行的是 Spark 1.5，无法使用 registerJavaFunction在 Spark 2.1 中。

最佳答案

使用 sqlContext.registerFunction 方法将您的函数(不是 udf)注册到 sql。还将您的 df 注册为 sql 表。

sqlContext.registerDataFrameAsTable(df, "names_df")

sqlContext.registerFunction("top_name", top_name,T.StringType())

sqlContext.sql("SELECT top_name(names) as top_name from names_df").collect()

> [Row(top_name=u'johnson'), Row(top_name=u'jane'), Row(top_name=u'sara')]

关于apache-spark - 如何使用 Spark SQL 获取 MapType 的 ArrayType 的最大值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42096682/

24

4

0

文章推荐： F# 中的异步 EF 查询

文章推荐： c# - 如何使用 c# 从 Microsoft Access 表中删除一行

文章推荐： Sitecore:在页面编辑器中以编程方式退出编辑模式

文章推荐： react-native - 在 react-native 上打印到蓝牙打印机

scala - 使用来自另一列的键从 MapType 列查找值
我有一个包含两列的 Spark 流数据框。 Integer id 列和 MapType 列，其中 Integer Id 作为键，JSON 对象作为值。 ------------------------
apache-spark - 如何将字符串冒号分隔的列转换为 MapType？
我正在尝试将 Dataframe 转换为 RDD，以便将 map (带有键值对)分解为不同的行。 Info = sqlContext.read.format("csv"). \ option("del
ios - NSNotificationCenter 和 mapType
我正在尝试从另一个 ViewController 更改 mapType，但它只显示 HybridType。无论按下分段控件上的按钮，任何其他 mapType 都不会改变。我究竟做错了什么？提前谢谢你.
ios - UISegmentedControl 快速显示 mapTypes
我是 ios 开发的新手，在谷歌上研究了这个案例，但没有发现任何相关的东西。我正在开发一个快速的 View Controller map 。到目前为止一切顺利，在此 ViewController 中，
C++ MapType::iterator 使用更新值
在我的 C++ 代码中，我通过迭代器访问 map 。如有必要，更新 map 并将其重新分配给类变量。在进行语句中，我想再次使用更新的 map 值。我应该再次加载 map ，刷新迭代器吗？等等例如 m
c# - Swashbuckle MapType 不适用于参数
我有一个 API 端点，它将 ShortGuid 类作为参数，如下所示: [HttpGet("api/endpoint")] public async Task GetTablesAsync(Shor
pyspark - 使用原始数据框加入/展开 mapType 列
我在 (py)Spark 中有一个数据框，其中 1 列来自“ map ”类型。我想将那一列展平或分成多列，这些列应该添加到原始数据框中。我可以使用 flatMap 展开列，但是我松开了将新数据框(从展
mysql - RewriteMap MapType dbd 的问题
继续此处的另一个讨论: MySQL + htaccess mod_rewrite? 我被要求提出另一个问题。我将其添加到我的 httpd.conf 文件中: DBDriver mysql DBDPa
swift - Userdefaults 保存 mapType UISegmentedControl
我需要在 UISegmentedControl 中保存 MapView map 类型。该代码只是将所选 map 类型保存在 UISegmentedControl 中，而不是将 map 类型保存在 Ma
python - pyspark:从现有列创建 MapType 列
我需要基于现有列创建一个新的 Spark DF MapType 列，其中列名是键，值是值。例如 - 我有这个 DF: rdd = sc.parallelize([('123k', 1.3, 6.3,
scala - 在 Spark 中连接 Maptype 值时如何处理空值
我正在尝试使用 concat_map() 连接 Maptype 的两列。我的问题是，当我尝试连接一个 null 和一个 Map 时，当我期望获得非 Null Map 值时却得到了一个 null。 va
google-maps-api-3 - 在多边形叠加层之上显示自定义 MapType
我一直在使用 Gheat 创建自定义热图作为 ImageMapType。我还有一些颜色编码的多边形，我想在热图创建的高光下方显示。但是，自定义 ImageMapType 始终呈现在多边形下方，并被它
scala - 在数据帧上执行 groupby 时连接 maptype 值
我有这个包含 3 列的数据框 -> userId, date, generation +-------+--------+---------------------------------------
python - 将新的键/值对添加到 Spark MapType 列
我有一个带有 MapType 字段的 Dataframe。 >>> from pyspark.sql.functions import * >>> from pyspark.sql.types imp
python - PySpark Dataframe.groupBy MapType 列
我有一个带有 MapType 列的数据框，其中键是一个 id，值是另一个具有两个数字、一个计数器和一个收入的 StructType。看起来像这样: +------------------------
c++ - 无法分配给 mapType::const_iterator？ ("no operator = matches")
typedef map mapType; mapType::const_iterator i; i = find_if( d.begin(), d.end(), isalnum ); 在“=”处我收到
apache-spark - 如何在 PySpark 中过滤 MapType 中的键？
给定如下的 DataFrame 是否可以在保持架构完整的同时过滤掉 PySpark 中 Column 集合的某些键(MapType(StringType, StringType, True))？ ro
apache-spark - 在 pyspark 中分解 Maptype 列
我有这样一个数据框 data = [(("ID1", {'A': 1, 'B': 2}))] df = spark.createDataFrame(data, ["ID", "Coll"]) df.s
javascript - 使用 JS 对象初始化 Google map MapTypes
得到一个像这样的 JS 对象: console.log(状态) Object {0: "SATELLITE", 1: "HYBRID"} 现在我需要将这两种 map 类型插入谷歌地图的选项中:
apache-spark - 在 pyspark 中分解 Maptype 列
我有这样一个数据框 data = [(("ID1", {'A': 1, 'B': 2}))] df = spark.createDataFrame(data, ["ID", "Coll"]) df.s

首页

博学

6Ren·AI

商城

apache-spark - 如何使用 Spark SQL 获取 MapType 的 ArrayType 的最大值？