apache-spark - 如何使用 Spark 滞后和领先分组和排序-6ren

apache-spark - 如何使用 Spark 滞后和领先分组和排序

转载作者：行者123 更新时间：2023-12-04 14:08:45

24

4

我使用:`

dataset.withColumn("lead",lead(dataset.col(start_date),1).over(orderBy(start_date)));

`
我只想按 trackId 添加组，以便像任何 agg 函数一样领导每个组的工作:

+----------+---------------------------------------------+
|  trackId |  start_time    |  end_time   |      lead    |
+-----+--------------------------------------------------+
|  1       | 12:00:00       |   12:04:00  |     12:05:00 |
+----------+---------------------------------------------+
|  1       | 12:05:00       |   12:08:00  |    12:20:00  |  
+----------+---------------------------------------------+
|  1       | 12:20:00       |   12:22:00  |     null     | 
+----------+---------------------------------------------+
|  2       | 13:00:00       |   13:04:00  |    13:05:00 |
+----------+---------------------------------------------+
|  2       | 13:05:00       |   13:08:00  |    13:20:00  |  
+----------+---------------------------------------------+
|  2       | 13:20:00       |   13:22:00  |     null     | 
+----------+---------------------------------------------+

任何帮助如何做到这一点？

最佳答案

您所缺少的只是 Window关键字和 partitionBy方法调用

import org.apache.spark.sql.expressions._
import org.apache.spark.sql.functions._
dataset.withColumn("lead",lead(col("start_time"),1).over(Window.partitionBy("trackId").orderBy("start_time")))

关于apache-spark - 如何使用 Spark 滞后和领先分组和排序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50113504/

24

4

0

文章推荐：当未提供函数的参数但用于对向量进行子集化时，R 不会报告错误

文章推荐： raku - perl6 - 将 Blob 中的数据转换为 Num

文章推荐： vue.js - 如何从 bootstrap-vue 模态监听事件？

文章推荐： intellij-idea - Intellij 如何部署到 JBoss？

c# - 如何避免用户界面卡顿/滞后？
我有一个简单的应用程序，它读取数据库，然后经过一些操作将结果写入另一个数据库。第一行代码使用给用户的消息和屏幕日志更新 ui，然后全部包装在带有 using 和其他 try/catch 的 try/
sql - 聚集超前/滞后
我有一个名为activity的表，其中有一个memberId和一个时间戳。我想找出在给定的月份中有多少成员执行了一项 Activity (即-在 Activity 表中有记录)，但在过去12个月中，谁
r - 滞后、平均和替换变量
我有前三列数据。第一个列表示 id 在前一天做了某件事。我试图通过添加一个新变量“new”来从 dat 转到 dat2，该变量执行三件事: 将 yest 的值复制到前一天。但日子并不总是连续的。因此，
c# - 如何避免用户界面卡顿/滞后？
我有一个简单的应用程序，它读取数据库，然后经过一些操作将结果写入另一个数据库。第一行代码使用给用户的消息和屏幕日志更新 ui，然后全部包装在带有 using 和其他 try/catch 的 try/
r - 不规则时间序列中的“滞后”
我有 data.frame，它显示了股票的当前出价和要价以及我当时的信号。 time bid_price ask_price signal 10:10:01.000500
javascript - 移动背景卡顿/滞后
我无法让网站正常运行。它有许多移动背景并使用 css-invert 过滤器。请看这里: http://epicstudios.de/blackwhite/ 我的问题是，即使是普通计算机也无法处理移动
JavaFX 进入鼠标事件延迟/滞后
我创建了一个矩形对象网格并将它们添加到一个 Pane 中。每个矩形都有一个连接到它的鼠标事件监听器，它由 MouseEvent.Entered 触发器触发。当用户将鼠标移到矩形上时，处理程序只是更改矩
c - 为什么控制台应用程序游戏在笔记本电脑上运行缓慢/滞后
感觉我的笔记本电脑不允许控制台应用程序以一定的速度运行，因为我也尝试过其他应用程序，并且它们也随机滞后。我的机器不老，也不应该这样做，它具有i7-4720HQ CPU @ 2.60GHz（8 CPUs
javascript - 由于图像而加载页面时负载很大(滞后)
我现在正面临这个问题。当我的页面加载 (DOM) 时，我调用一个返回 1880 张图像的函数，这些图像存储在 Steam 服务器中。这些图像在回调之后被添加到我的 DOM 中，该回调返回我的数组响应
Swift Scheduler 滞后？
我正在尝试创建一个每两秒执行一次函数的应用程序。为了实现这一点，我使用 Timer.scheduledTimer 函数。问题是该函数没有按照应有的那样每两秒执行一次。通常应用程序开始时的间隔是 2 秒
安卓 GPS 滞后
我得到了这个 gps 接收器方法，它将一些数据存储到数据库中。 // GPS private void addGPSListener() { globalconstant.db
ios - UISwitch 滞后
我有一个 UISwitch，它可以在切换值时更改其上方 UILabel 的文本。每隔一段时间(大约 2% 的时间)文本不会改变。标签的文本被保存到文本文件中，因此我需要准确性。由于这个问题是间歇性的，
ios - UIRefreshControl 滞后
我有一个包含用户帖子的表格 View 。每个帖子都有图片、用户名和帖子本身。刷新控件的操作是使用来自 Parse 的数据重新加载表。除了拉动刷新时的极度延迟外，一切都完美无缺。不知道是因为每个单元格里
iPhone UIViewController 滞后
我有一个“详细信息”页面，其中显示俱乐部的信息。该页面是一个 UIViewController，由按钮和标签组成，以实现这种外观(就像分组的小表格)。当我在设备上加载此页面时，它比我的应用程序中的任何
ios - ActionSheet 滞后
我有 ActionSheet 的代码，它可以连接的东西有点慢？ @IBAction func showAction(_ sender: UIButton) { let actionSheetC
java - BufferStrategy 滞后
我的桌面应用程序滞后。我认为 java.awt.image.BufferStrategy 中有问题。 private void render() { BufferStrategy bs
Android ViewPager 滞后
你好，我有一个包含多个页面的 viewpager(使用 fragment 状态寻呼机)，以及一些 png 作为这些页面的背景。我已经遵循了在 Ui 中显示位图 (http://developer.an
C# RichTextBox 滞后
我在 WPF 窗体上有一个 richtextbox 控件。它有 SpellChecking.IsEnabled 设置为 true 并且 VerticalScrollBarVisibility 设置为
Android SQLite 滞后
在我的 android 应用程序中，我将数据存储在本地 SQLite 数据库中。在这个数据库的大小小于 8-9 MB 之前，一切都很顺利；然而，一旦数据库大小约为 9 MB，它就会继续在 logcat
android webview滚动不流畅，滞后
我正在开发一个简单的 Android 应用程序，它只有一个 Activity ，一个 WebView。它在我的手机(Android 7.1.2 Nougat 版本)上运行良好，但我收到许多用户的投诉，

首页

博学

6Ren·AI

商城

apache-spark - 如何使用 Spark 滞后和领先分组和排序