Pyspark - 排名列保持联系-6ren

Pyspark - 排名列保持联系

转载作者：行者123 更新时间：2023-12-03 23:58:15

我正在寻找一种方法来对保留关系的数据框的列进行排名。专门针对此示例，我有一个 pyspark 数据框，如下所示，我想在其中为 colA 和 colB 生成排名(尽管我想支持能够对 N 列进行排名)

 +--------+----------+-----+----+
 |  Entity|        id| colA|colB|
 +-------------------+-----+----+
 |       a|8589934652|   21|  50|
 |       b|       112|    9|  23|
 |       c|8589934629|    9|  23|
 |       d|8589934702|    8|  21|         
 |       e|        20|    2|  21|        
 |       f|8589934657|    2|   5|          
 |       g|8589934601|    1|   5|         
 |       h|8589934653|    1|   4|          
 |       i|8589934620|    0|   4|          
 |       j|8589934643|    0|   3|         
 |       k|8589934618|    0|   3|         
 |       l|8589934602|    0|   2|         
 |       m|8589934664|    0|   2|         
 |       n|        25|    0|   1|         
 |       o|        67|    0|   1|         
 |       p|8589934642|    0|   1|         
 |       q|8589934709|    0|   1|         
 |       r|8589934660|    0|   1|         
 |       s|        30|    0|   1|         
 |       t|        55|    0|   1|         
 +--------+----------+-----+----+

我想要的是一种对绑定(bind)值获得相同排名的数据框进行排名的方法，例如:

 +--------+----------+-----+----+---------+---------+
 |  Entity|        id| colA|colB|colA_rank|colB_rank|
 +-------------------+-----+----+---------+---------+
 |       a|8589934652|   21|  50|        1|        1|
 |       b|       112|    9|  23|        2|        2|
 |       c|8589934629|    9|  21|        2|        3|
 |       d|8589934702|    8|  21|        3|        3|        
 |       e|        20|    2|  21|        4|        3|      
 |       f|8589934657|    2|   5|        4|        4|       
 |       g|8589934601|    1|   5|        5|        4|     
 |       h|8589934653|    1|   4|        5|        5|     
 |       i|8589934620|    0|   4|        6|        5|    
 |       j|8589934643|    0|   3|        6|        6|  
 |       k|8589934618|    0|   3|        6|        6| 
 |       l|8589934602|    0|   2|        6|        7|
 |       m|8589934664|    0|   2|        6|        7|
 |       n|        25|    0|   1|        6|        8|
 |       o|        67|    0|   1|        6|        8|
 |       p|8589934642|    0|   1|        6|        8|
 |       q|8589934709|    0|   1|        6|        8|
 |       r|8589934660|    0|   1|        6|        8|
 |       s|        30|    0|   1|        6|        8|
 |       t|        55|    0|   1|        6|        8|
 +--------+----------+-----+----+---------+---------+

我当前对第一个数据框的实现如下所示:

 def getRanks(mydf, cols=None, ascending=False):
     from pyspark import Row
     # This takes a dataframe and a list of columns to rank
     # If no list is provided, it ranks *all* columns
     # returns a new dataframe

     def addRank(ranked_rdd, col, ascending):
         # This assumes an RDD of the form (Row(...), list[...])
         # it orders the rdd by col, finds the order, then adds that to the 
         # list
         myrdd = ranked_rdd.sortBy(lambda (row, ranks):  row[col], 
                 ascending=ascending).zipWithIndex()
         return myrdd.map(lambda ((row, ranks), index): (row, ranks + 
                [index+1]))

     myrdd = mydf.rdd
     fields = myrdd.first().__fields__
     ranked_rdd = myrdd.map(lambda x: (x, []))

     if (cols is None):
         cols = fields
     for col in cols:
         ranked_rdd = addRank(ranked_rdd, col, ascending)
     rank_names = [x + "_rank" for x in cols]

     # Hack to make sure columns come back in the right order
     ranked_rdd = ranked_rdd.map(lambda (row, ranks): Row(*row.__fields__ + 
                  rank_names)(*row + tuple(ranks)))
     return ranked_rdd.toDF()

产生:

 +--------+----------+-----+----+---------+---------+
 |  Entity|        id| colA|colB|colA_rank|colB_rank|
 +-------------------+-----+----+---------+---------+
 |       a|8589934652|   21|  50|        1|        1|
 |       b|       112|    9|  23|        2|        2|
 |       c|8589934629|    9|  23|        3|        3|
 |       d|8589934702|    8|  21|        4|        4|        
 |       e|        20|    2|  21|        5|        5|      
 |       f|8589934657|    2|   5|        6|        6|       
 |       g|8589934601|    1|   5|        7|        7|     
 |       h|8589934653|    1|   4|        8|        8|     
 |       i|8589934620|    0|   4|        9|        9|    
 |       j|8589934643|    0|   3|       10|       10|  
 |       k|8589934618|    0|   3|       11|       11|
 |       l|8589934602|    0|   2|       12|       12|
 |       m|8589934664|    0|   2|       13|       13|
 |       n|        25|    0|   1|       14|       14|
 |       o|        67|    0|   1|       15|       15|
 |       p|8589934642|    0|   1|       16|       16|
 |       q|8589934709|    0|   1|       17|       17|
 |       r|8589934660|    0|   1|       18|       18|
 |       s|        30|    0|   1|       19|       19|
 |       t|        55|    0|   1|       20|       20|
 +--------+----------+-----+----+---------+---------+

如您所见，函数 getRanks() 获取一个数据框，指定要排名的列，对它们进行排序，然后使用 zipWithIndex() 生成排序或排名。但是，我想不出保持关系的方法。

这篇 stackoverflow 帖子是我找到的最接近的解决方案: rank-users-by-column但它似乎只处理 1 列(我认为)。

非常感谢您的提前帮助!

编辑:“id”列是通过调用 monotonically_increasing_id() 生成的，在我的实现中被转换为字符串。

最佳答案

你正在寻找dense_rank

首先让我们创建我们的数据框:

df = spark.createDataFrame(sc.parallelize([["a",8589934652,21,50],["b",112,9,23],["c",8589934629,9,23],
                ["d",8589934702,8,21],["e",20,2,21],["f",8589934657,2,5],
                ["g",8589934601,1,5],["h",8589934653,1,4],["i",8589934620,0,4],
                ["j",8589934643,0,3],["k",8589934618,0,3],["l",8589934602,0,2],
                ["m",8589934664,0,2],["n",25,0,1],["o",67,0,1],["p",8589934642,0,1],
                ["q",8589934709,0,1],["r",8589934660,0,1],["s",30,0,1],["t",55,0,1]]
), ["Entity","id","colA","colB"])

我们将定义两个 windowSpec:

from pyspark.sql import Window
import pyspark.sql.functions as psf
wA = Window.orderBy(psf.desc("colA"))
wB = Window.orderBy(psf.desc("colB"))
df = df.withColumn(
    "colA_rank", 
    psf.dense_rank().over(wA)
).withColumn(
    "colB_rank", 
    psf.dense_rank().over(wB)
)

    +------+----------+----+----+---------+---------+
    |Entity|        id|colA|colB|colA_rank|colB_rank|
    +------+----------+----+----+---------+---------+
    |     a|8589934652|  21|  50|        1|        1|
    |     b|       112|   9|  23|        2|        2|
    |     c|8589934629|   9|  23|        2|        2|
    |     d|8589934702|   8|  21|        3|        3|
    |     e|        20|   2|  21|        4|        3|
    |     f|8589934657|   2|   5|        4|        4|
    |     g|8589934601|   1|   5|        5|        4|
    |     h|8589934653|   1|   4|        5|        5|
    |     i|8589934620|   0|   4|        6|        5|
    |     j|8589934643|   0|   3|        6|        6|
    |     k|8589934618|   0|   3|        6|        6|
    |     l|8589934602|   0|   2|        6|        7|
    |     m|8589934664|   0|   2|        6|        7|
    |     n|        25|   0|   1|        6|        8|
    |     o|        67|   0|   1|        6|        8|
    |     p|8589934642|   0|   1|        6|        8|
    |     q|8589934709|   0|   1|        6|        8|
    |     r|8589934660|   0|   1|        6|        8|
    |     s|        30|   0|   1|        6|        8|
    |     t|        55|   0|   1|        6|        8|
    +------+----------+----+----+---------+---------+

关于Pyspark - 排名列保持联系，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46042286/

文章推荐： scala - 使用严格的函数式编程从偏序集生成 DAG

pyspark - 我想将数据框中的一列月份数字更改为月份名称(pyspark)
我在数据框中有一列月份数字，想将其更改为月份名称，所以我使用了这个: df['monthName'] = df['monthNumber'].apply(lambda x: calendar.mont
pyspark - pyspark 的控制台输入
Pyspark 中是否有一个 input() 函数，我可以通过它获取控制台输入。如果是，请详细说明一下。如何在 PySpark 中编写以下代码: directory_change = input("
pyspark - pyspark 中的数据类型验证
我们正在 pyspark 中构建数据摄取框架，并想知道处理数据类型异常的最佳方法是什么。基本上，我们希望有一个拒绝表来捕获所有未与架构确认的数据。 stringDf = sparkSession.cr
pyspark - pyspark 数据帧中数组的访问字段
我正在开发基于一组 ORC 文件的 spark 数据框的 sql 查询。程序是这样的: from pyspark.sql import SparkSession spark_session = Spa
pyspark - Pyspark 数据框中的填充
我有一个 Pyspark 数据框( 原始数据框 )具有以下数据(所有列都有字符串数据类型): id Value 1 103 2
pyspark - Pyspark + Redis远程服务器
我有一台配置了Redis和Maven的服务器然后我执行以下sparkSession spark = pyspark .sql .SparkSession .builder .master('loca
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - 将大型数组列拆分为多个列 - Pyspark
我有: +---+-------+-------+ | id| var1| var2| +---+-------+-------+ | a|[1,2,3]|[1,2,3]| | b|[2,
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - Pyspark 列的十分位数或其他分位数排名
我有一个带有多个数字列的 pyspark DF，我想为每一列根据每个变量计算该行的十分位数或其他分位数等级。这对 Pandas 来说很简单，因为我们可以使用 qcut 函数为每个变量创建一个新列，如
pyspark - pyspark.mllib 中 LabeledPoint 的类型转换错误，用于在 pyspark.ml 中使用线性回归模型
我有以下使用 pyspark.ml 包进行线性回归的代码。但是，当模型适合时，我在最后一行收到此错误消息: IllegalArgumentException: u'requirement failed
pyspark - 使用 PySpark 读取不带引号的多行字符串平面文件
我有一个由 | 分隔的平面文件(管道)，没有引号字符。示例数据如下所示: SOME_NUMBER|SOME_MULTILINE_STRING|SOME_STRING 23|multiline text
pyspark - 展平 PySpark 数组中的嵌套结构
给定如下模式: root |-- first_name: string |-- last_name: string |-- degrees: array | |-- element: struc
pyspark - 如何在数据帧的开头移动 pyspark 数据帧的特定列
我有一个 pyspark 数据框如下(这只是一个简化的例子，我的实际数据框有数百列): col1,col2,......,col_with_fix_header 1,2,.......,3 4,5,.
pyspark - 使用 pyspark 将特定单词删除到数据框中
我有一个数据框 +------+--------------------+-----------------+---- | id| titulo |tipo | formac
pyspark - 计数数组包含 PySpark 中每个类别的字符串的次数
我从 Spark 数组“df_spark”开始: from pyspark.sql import SparkSession import pandas as pd import numpy as np
pyspark - 在 Pyspark 中删除行
如何根据行号/行索引值删除 Pyspark 中的行值？我是 Pyspark(和编码)的新手——我尝试编码一些东西，但它不起作用。最佳答案您不能删除特定的列，但您可以使用 filter 或其别名
pyspark - 计算从列表 pyspark 引用的列的乘积
我有一个循环生成多个因子表的输出并将列名存储在列表中: | id | f_1a | f_2a | |:---|:----:|:-----| |1 |1.2 |0.95 | |2 |0.7
pyspark - 在 pyspark 中的案例总和
我正在尝试将 hql 脚本转换为 pyspark。我正在努力如何在 groupby 子句之后的聚合中实现 case when 语句的总和。例如。 dataframe1 = dataframe0.gro
pyspark - 获取数组 Pyspark 中的第一个元素
我想添加新的 2 列值服务 arr 第一个和第二个值但我收到错误: Field name should be String Literal, but it's 0; production_targe

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Pyspark - 排名列保持联系