list - 如何在 pyspark 的列表中找到最频繁出现的元素？-6ren

list - 如何在 pyspark 的列表中找到最频繁出现的元素？

转载作者：行者123 更新时间：2023-12-01 23:13:04

25

4

我有一个包含两列的 pyspark 数据框，ID 和 Elements。 “元素”列中有列表元素。看起来像这样，

ID | Elements
_______________________________________
X  |[Element5, Element1, Element5]
Y  |[Element Unknown, Element Unknown, Element_Z]

我想用“元素”列中出现频率最高的元素构成一列。输出应该是这样的，

ID | Elements                                           | Output_column 
__________________________________________________________________________
X  |[Element5, Element1, Element5]                      | Element5
Y  |[Element Unknown, Element Unknown, Element_Z]       | Element Unknown

我如何使用 pyspark 做到这一点？

提前致谢。

最佳答案

我们可以在这里使用高阶函数(可从 spark 2.4+ 获得)

首先使用transform 和aggregate 获取数组中每个不同值的计数。
然后对结构体数组进行降序排序，然后得到第一个元素。

from pyspark.sql import functions as F
temp = (df.withColumn("Dist",F.array_distinct("Elements"))
              .withColumn("Counts",F.expr("""transform(Dist,x->
                           aggregate(Elements,0,(acc,y)-> IF (y=x, acc+1,acc))
                                      )"""))
              .withColumn("Map",F.arrays_zip("Dist","Counts")
              )).drop("Dist","Counts")
out = temp.withColumn("Output_column",
                    F.expr("""element_at(array_sort(Map,(first,second)->
         CASE WHEN first['Counts']>second['Counts'] THEN -1 ELSE 1 END),1)['Dist']"""))

输出:

请注意，我为 ID z 添加了一个空白数组以进行测试。您也可以通过将 .drop("Map") 添加到输出中来删除 Map 列

out.show(truncate=False)

+---+---------------------------------------------+--------------------------------------+---------------+
|ID |Elements                                     |Map                                   |Output_column  |
+---+---------------------------------------------+--------------------------------------+---------------+
|X  |[Element5, Element1, Element5]               |[{Element5, 2}, {Element1, 1}]        |Element5       |
|Y  |[Element Unknown, Element Unknown, Element_Z]|[{Element Unknown, 2}, {Element_Z, 1}]|Element Unknown|
|Z  |[]                                           |[]                                    |null           |
+---+---------------------------------------------+--------------------------------------+---------------+

对于低版本，你可以使用带统计模式的udf:

from pyspark.sql import functions as F,types as T
from statistics import mode
u = F.udf(lambda x: mode(x) if len(x)>0 else None,T.StringType())

df.withColumn("Output",u("Elements")).show(truncate=False)
+---+---------------------------------------------+---------------+
|ID |Elements                                     |Output         |
+---+---------------------------------------------+---------------+
|X  |[Element5, Element1, Element5]               |Element5       |
|Y  |[Element Unknown, Element Unknown, Element_Z]|Element Unknown|
|Z  |[]                                           |null           |
+---+---------------------------------------------+---------------+

关于list - 如何在 pyspark 的列表中找到最频繁出现的元素？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69483901/

25

4

0

文章推荐： r - 计算 Moran's I 方差的 S1 总和

文章推荐： java - MockMvc 返回 404

文章推荐： java - 不将数组从 json 解析为 android java

文章推荐： css - Material-ui makeStyles 前后都有

c# - 获取数组中最常见(频繁)的字符串条目
我有一个包含值的字符串数组(duh...)。有没有一种简单的方法可以获取出现次数最多的条目？有点像 values[37].getMostOften(); 干杯:) 最佳答案您可以使用GroupBy
java - 频繁 Integer.toString() 转换的内存问题
我目前正在将一款用 C#(适用于 Windows Phone)开发的游戏移植到 Java (Android)。我们在 Java 版本中遇到了内存问题，在分析之后，似乎是由于内存中的大量 String
objective-c - 频繁(5Hz)核心数据保存的性能开销
对于播放音频文件的 iPhone 应用程序，我正在开发一个系统来跟踪用户在他们听过的任何一集中的进度(例如，他们听 file1 的前 4:35，然后开始另一个文件，然后返回到文件 1，它从 4:35
ios - 按 UIbutton 显示 UITextView 频繁
如果您按下 UIbutton 显示 UITextView，将请求代码 Ì 再次按下 UIbutton 再次显示 UITextView :/ 最佳答案 .h 文件中只有一个 int 变量，如下所示..
asp.net-mvc-3 - Application_End 被调用过早/频繁
我在 Application_End 上处理的项目中使用临时数据库: protected void Application_End() { if (_db != null) _db.Dispo

首页

博学

6Ren·AI

商城

list - 如何在 pyspark 的列表中找到最频繁出现的元素？