- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
为了排名,我需要获取 row_number 是一个 pyspark 数据框。我看到 pyspark 的 windows 函数中有 row_number 函数,但这需要使用 HiveContext。
我尝试用 HiveContext 替换 sqlContext
import pyspark
self.sc = pyspark.SparkContext()
#self.sqlContext = pyspark.sql.SQLContext(self.sc)
self.sqlContext = pyspark.sql.HiveContext(self.sc)
但它现在抛出异常 TypeError: 'JavaPackage' object is not callable您能否帮助操作 HiveContext 或以不同的方式获取行号?
数据示例:我想先根据我的预测进行排名,然后根据这个排名计算损失函数 (ndcg)。为了计算损失函数,我需要排名(即预测在排序中的位置)
所以第一步是按 pred 对数据进行排序,然后我需要一个排序数据的运行计数器。
+-----+--------------------+
|label|pred|
+-----+--------------------+
| 1.0|[0.25313606997906...|
| 0.0|[0.40893413256608...|
| 0.0|[0.18353492079000...|
| 0.0|[0.77719741215204...|
| 1.0|[0.62766290642569...|
| 1.0|[0.40893413256608...|
| 1.0|[0.63084085591913...|
| 0.0|[0.77719741215204...|
| 1.0|[0.36752166787523...|
| 0.0|[0.40893413256608...|
| 1.0|[0.25528507573737...|
| 1.0|[0.25313606997906...|
谢谢。
最佳答案
您不需要创建 HiveContext
如果您的数据不在 Hive 中。您可以继续使用 sqlContext
。
除非您创建数据框,否则没有row_number
。 pyspark.sql.functions.row_number
` 用于不同的目的,它仅适用于窗口分区。
您可能需要使用 monotonically_increasing_id
创建一个新列作为 row_id
稍后再查询。
from pyspark.sql.functions import monotonically_increasing_id
from pyspark.sql.types import Row
data = sc.parallelize([
Row(key=1, val='a'),
Row(key=2, val='b'),
Row(key=3, val='c'),
]).toDF()
data = data.withColumn(
'row_id',
monotonically_increasing_id()
)
data.collect()
Out[8]:
[Row(key=1, val=u'a', row_id=17179869184),
Row(key=2, val=u'b', row_id=42949672960),
Row(key=3, val=u'c', row_id=60129542144)]
关于python - 如何获取 row_number 是 pyspark 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40329865/
我正在使用 postgres 9.1 构建分页记分牌。 用户可以根据多个标准对记分板进行排序,他们可以按升序或降序排序。有一个功能可以让用户在记分牌的多个页面中找到“他们的行”,它必须反射(refle
我在练习中遇到了这个问题,我无法修复它,这让我发疯了......基本上我使用的是 SQLLite,所以我只能使用任何窗口函数来获得结果并且更痛苦的部分是已经创建的架构上没有唯一的 id。参见示例: *
语法: ROW_NUMBER() OVER([ <partition_by_clause>] <order_by_clause>) 备注: 
更新:事实上,请留下以下复杂的查询,请检查此查询。它说 Fetch 为 98%,而 Row_Number 中为 2%? Fetch 是 SQL Server 2012 的另一个营销关键字吗? ----
我需要使用以下查询向用户事件添加计数器: select PERSON_ID, TIMESTAMP, row_number() over (partition by PERSON_ID order
我有一张 table : Trip Stop Time ----------------- 1 A 1:10 1 B 1:16 1 B 1:20 1
我有以下存储过程返回 A , B , 并按降序计数。我正在尝试使用 ROW_NUMBER ,所以我可以分页记录,但我想要第一行号 1成为计数最高的记录,所以基本上,如果我返回一个包含 3 条记录的表并
在我的 sql 案例中,我在计算 row_number 的最大值时遇到了麻烦。 我将直接在 SQL Fiddle 示例上进行解释,因为我认为理解起来会更快:SQL Fiddle “OrderNumbe
我有这个运行良好的 SQL。 希望我的过滤器返回具有最高 UserSessionSequenceID 的最新唯一 SessionGuid。 问题是性能很差——即使我有很好的索引。 我怎样才能重写这个
希望有人可以在这里为我指明正确的方向。 请参阅下面的查询。 SELECT day_id,month_id,time_id, row_number() over (partition BY month_
请问函数row_number()总是以相同的方式对相同的数据进行排序? 最佳答案 不可以。SQL 中的排序不稳定,这意味着不会保留原始排序顺序。不能保证解析函数或 order by将为相同的键值以相同
我有一个用例,我需要在 PARTITION 上使用 ROW_NUMBER(): 就像是: SELECT Column1 , Column 2 ROW_NUMBER() OVER ( P
UPD:谢谢大家,话题结束, sleep 后我明白了一切=) 我在理解 OVER 子句和 ROW_NUMBER 函数时遇到问题。简单的表 - 名称和标记。我想计算每个名字的平均分数。 SELECT t
我有一个包含零的列和一个保留顺序的列,其中零表示数据片段之间的中断。这是例子 A Ord 1 1 1 2 0 3 0 4 0 5 1 6 1 7 1 8 0 9 1 10 我想要获得的是同一列,其中零
我有这个简单的查询,希望它是不言自明的。 SELECT ROW_NUMBER() OVER (PARTITION BY Price_Id ORDER BY date DESC) r, * FROM
请考虑此查询: SELECT num, * FROM ( SELECT OrderID, CustomerID, EmployeeID, OrderDate, Required
首先,我想提一下,我已经检查了所有其他提出的问题,没有一个与我的相似,所以我不认为它是重复的。 我有两个表格,“Article_tbl”到目前为止已超过 300,000 行,“ArticleZone_
我有一个非常简单的问题,但我正在使用 appInsights,并且似乎无法弄清楚如何在 aiql 或任何函数中复制 row_number() 函数(没有分区意义)。 我有综合浏览量表,我按 sessi
在 SQL 2005/2008 数据库中,我们有表 BatchMaster。列:RecordId bigint - 自动增量 id,BatchNumber bigint - 唯一非聚集索引,Batch
我正在搜索删除表中的重复条目,我看到了如下示例: CREATE TABLE Suppliers ( Id int identity (1,1), CompanyTitle nvarchar(1
我是一名优秀的程序员,十分优秀!