python - 如何获取 row_number 是 pyspark 数据框-6ren

python - 如何获取 row_number 是 pyspark 数据框

转载作者：太空宇宙更新时间：2023-11-04 00:44:32

26

4

为了排名，我需要获取 row_number 是一个 pyspark 数据框。我看到 pyspark 的 windows 函数中有 row_number 函数，但这需要使用 HiveContext。

我尝试用 HiveContext 替换 sqlContext

        import pyspark
        self.sc = pyspark.SparkContext()
        #self.sqlContext = pyspark.sql.SQLContext(self.sc)
        self.sqlContext = pyspark.sql.HiveContext(self.sc)

但它现在抛出异常 TypeError: 'JavaPackage' object is not callable您能否帮助操作 HiveContext 或以不同的方式获取行号？

数据示例:我想先根据我的预测进行排名，然后根据这个排名计算损失函数 (ndcg)。为了计算损失函数，我需要排名(即预测在排序中的位置)

所以第一步是按 pred 对数据进行排序，然后我需要一个排序数据的运行计数器。

+-----+--------------------+
|label|pred|
+-----+--------------------+

|  1.0|[0.25313606997906...|
|  0.0|[0.40893413256608...|
|  0.0|[0.18353492079000...|
|  0.0|[0.77719741215204...|
|  1.0|[0.62766290642569...|
|  1.0|[0.40893413256608...|
|  1.0|[0.63084085591913...|
|  0.0|[0.77719741215204...|
|  1.0|[0.36752166787523...|
|  0.0|[0.40893413256608...|
|  1.0|[0.25528507573737...|
|  1.0|[0.25313606997906...|

谢谢。

最佳答案

您不需要创建 HiveContext如果您的数据不在 Hive 中。您可以继续使用 sqlContext。

除非您创建数据框，否则没有row_number。 pyspark.sql.functions.row_number ` 用于不同的目的，它仅适用于窗口分区。

您可能需要使用 monotonically_increasing_id 创建一个新列作为 row_id稍后再查询。

from pyspark.sql.functions import monotonically_increasing_id
from pyspark.sql.types import Row

data = sc.parallelize([
  Row(key=1, val='a'),
  Row(key=2, val='b'), 
  Row(key=3, val='c'), 
]).toDF()

data = data.withColumn(
  'row_id',
  monotonically_increasing_id()
)

data.collect()


Out[8]: 
[Row(key=1, val=u'a', row_id=17179869184),
 Row(key=2, val=u'b', row_id=42949672960),
 Row(key=3, val=u'c', row_id=60129542144)]

关于python - 如何获取 row_number 是 pyspark 数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40329865/

26

4

0

文章推荐： python - 用 Pandas 替换字符串

文章推荐： python - 如何按列对二维列表进行排序

文章推荐： css - 瞄准未隐藏的第一个 child

ruby-on-rails - row_number() 带有未指定的窗口 `row_number() OVER ()`
我正在使用 postgres 9.1 构建分页记分牌。用户可以根据多个标准对记分板进行排序，他们可以按升序或降序排序。有一个功能可以让用户在记分牌的多个页面中找到“他们的行”，它必须反射(refle
sql - 如何在不使用 ROW_NUMBER() 的情况下模仿 ROW_NUMBER() 功能？
我在练习中遇到了这个问题，我无法修复它，这让我发疯了......基本上我使用的是 SQLLite，所以我只能使用任何窗口函数来获得结果并且更痛苦的部分是已经创建的架构上没有唯一的 id。参见示例: *
ROW_NUMBER SQL Server 2005的LIMIT功能实现(ROW_NUMBER()排序函数)
语法： ROW_NUMBER() OVER([ <partition_by_clause>] <order_by_clause>) 备注：
Sql Server 2012 fetch 与旧 row_number 性能。我缺少什么？为什么 row_number 快 17 倍？
更新:事实上，请留下以下复杂的查询，请检查此查询。它说 Fetch 为 98%，而 Row_Number 中为 2%？ Fetch 是 SQL Server 2012 的另一个营销关键字吗？ ----
SQL row_number() - 如何忽略空值？
我需要使用以下查询向用户事件添加计数器: select PERSON_ID, TIMESTAMP, row_number() over (partition by PERSON_ID order
sql - ROW_NUMBER 查询
我有一张 table : Trip Stop Time ----------------- 1 A 1:10 1 B 1:16 1 B 1:20 1
tsql - 如何在以下过程中使用 ROW_NUMBER？
我有以下存储过程返回 A , B , 并按降序计数。我正在尝试使用 ROW_NUMBER ，所以我可以分页记录，但我想要第一行号 1成为计数最高的记录，所以基本上，如果我返回一个包含 3 条记录的表并
sql - 在交叉应用中获取最大 row_number
在我的 sql 案例中，我在计算 row_number 的最大值时遇到了麻烦。我将直接在 SQL Fiddle 示例上进行解释，因为我认为理解起来会更快:SQL Fiddle “OrderNumbe
SQL ROW_NUMBER() 性能问题
我有这个运行良好的 SQL。希望我的过滤器返回具有最高 UserSessionSequenceID 的最新唯一 SessionGuid。问题是性能很差——即使我有很好的索引。我怎样才能重写这个
sql - row_number() 分析函数的奇怪行为
希望有人可以在这里为我指明正确的方向。请参阅下面的查询。 SELECT day_id,month_id,time_id, row_number() over (partition BY month_
sql - row_number() 是否总是以同样的方式打破关系？
请问函数row_number()总是以相同的方式对相同的数据进行排序？最佳答案不可以。SQL 中的排序不稳定，这意味着不会保留原始排序顺序。不能保证解析函数或 order by将为相同的键值以相同
sql - ROW_NUMBER( ) OVER 在黑斑羚
我有一个用例，我需要在 PARTITION 上使用 ROW_NUMBER(): 就像是: SELECT Column1 , Column 2 ROW_NUMBER() OVER ( P
sql - ORDER BY ROW_NUMBER
UPD:谢谢大家，话题结束， sleep 后我明白了一切=) 我在理解 OVER 子句和 ROW_NUMBER 函数时遇到问题。简单的表 - 名称和标记。我想计算每个名字的平均分数。 SELECT t
sql - 取决于条件的 Row_number()
我有一个包含零的列和一个保留顺序的列，其中零表示数据片段之间的中断。这是例子 A Ord 1 1 1 2 0 3 0 4 0 5 1 6 1 7 1 8 0 9 1 10 我想要获得的是同一列，其中零
tsql - 使用日期索引优化 ROW_NUMBER()
我有这个简单的查询，希望它是不言自明的。 SELECT ROW_NUMBER() OVER (PARTITION BY Price_Id ORDER BY date DESC) r, * FROM
sql - ROW_NUMBER() 执行计划
请考虑此查询: SELECT num, * FROM ( SELECT OrderID, CustomerID, EmployeeID, OrderDate, Required
sql - ROW_NUMBER() 性能优化
首先，我想提一下，我已经检查了所有其他提出的问题，没有一个与我的相似，所以我不认为它是重复的。我有两个表格，“Article_tbl”到目前为止已超过 300,000 行，“ArticleZone_
azure - Row_number() 或应用程序见解中可能的其他分析函数？
我有一个非常简单的问题，但我正在使用 appInsights，并且似乎无法弄清楚如何在 aiql 或任何函数中复制 row_number() 函数(没有分区意义)。我有综合浏览量表，我按 sessi
SQL ROW_NUMBER 和排序问题
在 SQL 2005/2008 数据库中，我们有表 BatchMaster。列:RecordId bigint - 自动增量 id，BatchNumber bigint - 唯一非聚集索引，Batch
sql - row_number() 如何工作？
我正在搜索删除表中的重复条目，我看到了如下示例: CREATE TABLE Suppliers ( Id int identity (1,1), CompanyTitle nvarchar(1

首页

博学

6Ren·AI

商城

python - 如何获取 row_number 是 pyspark 数据框