scala - 填补时间序列 Spark 中的空白-6ren

scala - 填补时间序列 Spark 中的空白

转载作者：行者123 更新时间：2023-12-04 17:35:29

24

4

我在处理时间序列数据时遇到问题。由于电源故障，数据集中缺少一些时间戳。我需要通过添加行来填补这个空白，然后，我可以插入缺失的值。

输入数据:

periodstart                usage
---------------------------------
2015-09-11 02:15           23000   
2015-09-11 03:15           23344   
2015-09-11 03:30           23283  
2015-09-11 03:45           23786   
2015-09-11 04:00           25039

想要的输出:

periodstart                usage
---------------------------------
2015-09-11 02:15           23000   
2015-09-11 02:30           0   
2015-09-11 02:45           0   
2015-09-11 03:00           0   
2015-09-11 03:15           23344   
2015-09-11 03:30           23283   
2015-09-11 03:45           23786   
2015-09-11 04:00           25039

现在我已经在数据集 foreach 函数中使用 while 循环修复了这个问题。问题是我必须先将数据集收集到驱动程序，然后才能进行 while 循环。所以这不是 Spark 的正确方式。

有人可以给我一个更好的解决方案吗？

这是我的代码:

MissingMeasurementsDS.collect().foreach(row => {
  // empty list for new generated measurements
  val output = ListBuffer.empty[Measurement]
  // Missing measurements
  val missingMeasurements = row.getAs[Int]("missingmeasurements")
  val lastTimestamp = row.getAs[Timestamp]("previousperiodstart")
  //Generate missing timestamps
  var i = 1
  while (i <= missingMeasurements) {
    //Increment timestamp with 15 minutes (900000 milliseconds)
    val newTimestamp = lastTimestamp.getTime + (900000 * i)
    output += Measurement(new Timestamp(newTimestamp), 0))
    i += 1
  }
  //Join interpolated measurements with correct measurements
  completeMeasurementsDS.join(output.toDS())
})
completeMeasurementsDS.show()
println("OutputDF count = " + completeMeasurementsDS.count())

最佳答案

如果输入 DataFrame具有以下结构:

root
 |-- periodstart: timestamp (nullable = true)
 |-- usage: long (nullable = true)

斯卡拉

确定最小值/最大值:

val (minp, maxp) = df
  .select(min($"periodstart").cast("bigint"), max($"periodstart".cast("bigint")))
  .as[(Long, Long)]
  .first

设置步长，例如15分钟:

val step: Long = 15 * 60

生成引用范围:

val reference = spark
  .range((minp / step) * step, ((maxp / step) + 1) * step, step)
  .select($"id".cast("timestamp").alias("periodstart"))

加入并填补空白:

reference.join(df, Seq("periodstart"), "leftouter").na.fill(0, Seq("usage"))

python

在 PySpark 中类似:

from pyspark.sql.functions import col, min as min_, max as max_

step = 15 * 60

minp, maxp = df.select(
    min_("periodstart").cast("long"), max_("periodstart").cast("long")
).first()

reference = spark.range(
    (minp / step) * step, ((maxp / step) + 1) * step, step
).select(col("id").cast("timestamp").alias("periodstart"))

reference.join(df, ["periodstart"], "leftouter")

关于scala - 填补时间序列 Spark 中的空白，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52095181/

24

4

0

文章推荐： java - JFrame鼠标点击停止键盘按钮

文章推荐： svg - 在D3模糊中对笔触进行描边

文章推荐： dart - native 扩展 - C++ native 库

r - 填补 R 中时间序列数据的空白
这个问题困扰了我一段时间，因为我一直在寻找一种有效的方法。基本上，我有一个数据框，每行都有一个来自实验的数据样本。我想这应该更多地被视为来自实验的日志文件，而不是用于分析的数据的最终版本。我遇到的问
sql - 填补 IDENTITY 列值的空白
我有一个带有 IDENTITY 列的表 [Id] int IDENTITY(1, 1) NOT NULL 在添加/删除了一些行之后，我以 Id 值的差距结束: Id Name ---------
mysql - 填补 Mysql 中数据范围之间的空白
我有一个发票表，我在其中存储给定数据范围的发票(即 2012-01-01 到 2012-01-31 之间日期的发票 1)。现在有几天可能没有关联的发票，所以你会有 > ID | START_DATE
sql - 填补 DATE 字段中的空白
我正在查询 DATE 字段: SELECT DATE , FIELD2 , FIELD3 into Table_new FROM Table_old WHERE (crite
sql - 填补 PostgreSQL 查询结果中的空白
我有下表 data_users id | signed_up_at | product_id -------+---------------------------------
sql - 填补 SQL 查询中的空白
抱歉这个模糊的主题，但我想不出该放什么。这是我的问题，我正在对一个表进行查询，该表返回与一天相关的项目计数。我想确保如果我对数据库进行查询，我总是会得到一定数量的行。例如，假设我有下表，其中包含人们
css - 填补 CSS 网格布局中的空白
这个问题在这里已经有了答案: Why does CSS Grid layout add extra gaps between cells? (4 个答案) CSS-only masonry layo
python - 填补 Pandas 数据框中缺失的日子
给定数据框 df = pd.DataFrame(data=[[1,1,3],[1,2,6],[1,4,3],[2,2,6]],columns=['ID','Day','Value']) df Out[
python - 填补 Pandas 数据框中的日期空白
我有以日期时间为索引的 Pandas DataFrame(从 .csv 加载).. 每天有/必须有一个条目。问题是我有差距，即有些日子我根本没有数据。在间隙中插入行(天)的最简单方法是什么？还有一种方
python - 填补 numpy 数组中的空白
我只想用最简单的术语对 3D 数据集进行插值。线性插值，最近邻，这就足够了(这是开始一些算法，所以不需要准确估计)。在新的 scipy 版本中，像 griddata 这样的东西会很有用，但目前我只有
ruby - 填补 Ruby 多维数组中空白的最佳方法
我有一个类似于下面示例的多维数组，我想使用 Ruby 的 zip 方法将其组合在一起。当每个内部数组具有相同数量的元素时，我可以正常工作，但当它们的长度不同时，我会遇到问题。在下面的示例中，第二组在
d3.js - 填补 D3 数组嵌套中的空白
我有一个由日期和一些值组成的数组或对象: var flatData = [ { "date": "2012-05-26", "product": "apple" }, { "date
sql - 填补 SQL Server 中年份序列的空白
我有一个带有列 Age 的表格, Period和 Year .栏目Age总是从 0 开始并且没有固定的最大值(我在这个例子中使用了 'Age' 0 到 30，但范围也可以是 0 到 100 等)，值
sql - 填补 SQL Server 日期范围中的空白
在 SQL Server 2014 中，我有一个如下所示的 Periods 表: | PeriodId | PeriodStart | PeriodEnd | -------------------
sql - 填补 SQL Server 日期范围中的空白
在 SQL Server 2014 中，我有一个如下所示的 Periods 表: | PeriodId | PeriodStart | PeriodEnd | -------------------
javascript - 填补 NVD3.js 中的空白
我正在尝试在 NVD3.js 中制作水平分组堆叠条形图。一切都很好，直到我的 JSON 数据出现“差距”，如下所示: [{ "key": "Education & news",
python - 填补 MultiIndex Pandas Dataframe 中的日期空白
我想修改一个 pandas MultiIndex DataFrame，使每个索引组都包含指定范围之间的日期。我希望每个组用值 0(或 NaN)填写缺失的日期 2013-06-11 到 2013-12-

首页

博学

6Ren·AI

商城

scala - 填补时间序列 Spark 中的空白