python - PySpark 数值窗口分组依据-6ren

python - PySpark 数值窗口分组依据

转载作者：太空宇宙更新时间：2023-11-03 15:48:26

25

4

我希望能够按步长对 Spark 进行分组，而不仅仅是单个值。 spark 中是否有类似于 PySpark 2.x 的用于数字(非日期)值的 window 函数？

类似的东西:

sqlContext = SQLContext(sc)
df = sqlContext.createDataFrame([10, 11, 12, 13], "integer").toDF("foo")
res = df.groupBy(window("foo", step=2, start=10)).count()

最佳答案

可以复用时间戳一，秒级表达参数。翻滚:

from pyspark.sql.functions import col, window

df.withColumn(
    "window",
    window(
         col("foo").cast("timestamp"), 
         windowDuration="2 seconds"
    ).cast("struct<start:bigint,end:bigint>")
).show()

# +---+-------+              
# |foo| window|
# +---+-------+
# | 10|[10,12]|
# | 11|[10,12]|
# | 12|[12,14]|
# | 13|[12,14]|
# +---+-------+

滚动一:

df.withColumn(
    "window", 
    window(
        col("foo").cast("timestamp"),
        windowDuration="2 seconds", slideDuration="1 seconds"
     ).cast("struct<start:bigint,end:bigint>")
).show()

# +---+-------+
# |foo| window|
# +---+-------+
# | 10| [9,11]|
# | 10|[10,12]|
# | 11|[10,12]|
# | 11|[11,13]|
# | 12|[11,13]|
# | 12|[12,14]|
# | 13|[12,14]|
# | 13|[13,15]|
# +---+-------+

使用 groupBy 和 start:

w = window(col("foo").cast("timestamp"), "2 seconds").cast("struct<start:bigint,end:bigint>")
start = w.start.alias("start")
df.groupBy(start).count().show()

+-----+-----+
|start|count|
+-----+-----+
|   10|    2|
|   12|    2|
+-----+-----+

关于python - PySpark 数值窗口分组依据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48467215/

25

4

0

文章推荐： angularjs - 如何授权两个 PayPal 账户之间的交易？

文章推荐： python - 面向对象的 Tkinter 函数 - 我如何将其放入？

javascript - 字母正则表达式 + 数值
我正在开发一个 Java 脚本，为此我需要正则表达式来检查文本框中输入的文本是否应该是字母和数值的组合。我尝试了 Java 脚本的 NaN 函数，但字符串的最小长度和最大长度应为 4，并以字母作为第
algorithm - (数值)计算两个长方体的相交体积
我给出了两个长方体，其中只有一个轴对齐(另外两个不需要对齐)和顶点坐标(在全局坐标系中)，我知道它们相交。我正在寻找一种可以计算路口体积的算法。为了检查交点，我使用了分离轴定理。最佳答案可以通过
MySQL json_search 数值
我有一个类似这样的对象的 json 列表 [{ "something": "bla", "id": 2 }, { "something": "yes", "id": 1
vba - 字典不显示特定键(数值)的项目
这是一篇很长的文章，但请留在我身边... 我有一个字典，它将“PO”保存为Key，将“SO”保存为项目(在某些情况下，某个“PO”可能有多个“SO”) . 工作表中的我的 Excel 数据，字典在其中
elasticsearch - 术语包括 Elasticsearch 数值
我的问题是是否有办法使用 terms include在 numeric field在 elasticsearch aggregation . 我在 Elasticsearch 中对多个字段使用通用查询
json - 编码不带引号的 json 数值
我有一个 perl 代码片段 use JSON::XS; $a = {"john" => "123", "mary" => "456"}; print encode_json($a),"\n"; 输出
python - python的不等式/数值+条件语句？
我想对 python 进行一个条件测试，以检查给定输入数字的值是否等于或小于 9，并且大于或等于 0。 number =input( "Please enter a number! :" ) Plea
javascript - 获取对象中的 "next"数值
我有一个这样的对象: var rock = { 5: 0.5, 0: 0.8, 10: 0.3, 2: 1.0, } 我有一个像 4.3 这样的数字，我需要前后数字的索引和值。在这个例子中我会
iOS - 字符串中各个字符的 Unicode 数值
对于 iOS 中的 Objective-C: 如果我有一个字符串，如何读取单个字符的 unicode 数值？例如，如果我的字符串是:“Δ”，unicode 字符是 U+0394，那么我如何读取该字符
java - 数值 Java 库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
javascript - 检查数组是否包含(仅)数值
我有这样的数组 var arrayVal_Int = ["21", "53", "92", "79"]; var arrayVal_Alpha = ["John", "Christine", "L
php - 递增 alpha 数值
就像标题暗示我需要做这样的事情...... $i++;//we all know this. $value = 'a'; increment($value);// i need this functi
python - 生成具有给定(数值)分布的随机数
我有一个文件，其中包含一些不同值的概率，例如: 1 0.1 2 0.05 3 0.05 4 0.2 5 0.4 6 0.2 我想使用此分布生成随机数。是否存在处理此问题的现有模块？自己编写代码相当简单
c++ - Rcpp 数值 vector 输出只返回一个值
因此，我在从使用 RCPP 创建的函数返回值时遇到了一些问题。它只返回 NumericVector 的第一个值。问题是当我在自身内部调用函数并将 NumericVector 传递回 out 变量时。任
c++ - 数值 vector 运算符重载+右值引用参数
我有下面的数字 vector 模板类(用于数值计算的 vector )。我正在尝试使编写 D=A+B+C 成为可能，其中所有变量都是 Vector 对象。 A、B 和 C 不应修改。我的想法是使用 V
mysql常用函数实例总结【聚集函数、字符串、数值、时间日期处理等】
本文实例讲述了mysql常用函数。分享给大家供大家参考，具体如下：本文内容： mysql函数的介绍聚集函数 avg count max
python - 如何从 Object dtype 中提取特定的单词/数值？
我正在尝试使用 python(无关)为我的公司自动化一些事情，这就是我的问题。首先，我正在从邮箱中的特定文件夹创建数据框。(到这里没问题)” RangeIndex: 36 entries, 0 to
javascript - Angular ng-if 数值 bool 值
我在让 Angular ng-if 工作时遇到了一些麻烦。我希望我的 DOM 元素之一在 $scope.week = 1 时消失。在我的 Controller 中我设置了 $scope.week =
Solr 数值 Trie 与传统 trie(前缀树)
我正在阅读 Ingersoll、Morton 和 Farris 撰写的 Taming Text，但我不明白 solr 的数字 trie 实现如何帮助搜索文本？我对 solr.TrieField fie
javascript - 在 PHP 计算中使用 JavaScript 数值
这个问题已经有答案了: What is the difference between client-side and server-side programming? (3 个回答) 已关闭 9 年前

首页

博学

6Ren·AI

商城

python - PySpark 数值窗口分组依据