hadoop - 如何在 pig latin 的日期时间范围内创建丢失的记录-6ren

hadoop - 如何在 pig latin 的日期时间范围内创建丢失的记录

转载作者：可可西里更新时间：2023-11-01 15:17:23

26

4

我有表单的输入记录

2013-07-09T19:17Z,f1,f2
2013-07-09T03:17Z,f1,f2
2013-07-09T21:17Z,f1,f2
2013-07-09T16:17Z,f1,f2
2013-07-09T16:14Z,f1,f2
2013-07-09T16:16Z,f1,f2
2013-07-09T01:17Z,f1,f2
2013-07-09T16:18Z,f1,f2

这些代表时间戳和事件。我手写了这些，但实际数据应该根据时间排序。

我想生成一组记录，这些记录将输入到需要连续时间序列的绘图函数中。我想填写缺失值，即如果有“2013-07-09T19:17Z”和“2013-07-09T19:19Z”的条目，我想为“2013-07-09T19:18Z”生成条目"具有预定义的值。

我的想法:

使用 MIN 和 MAX 查找系列中的开始和结束日期
编写接受最小值和最大值并返回与缺失值的关系的 UDF时间戳
加入以上2个关系

虽然我不知道如何在 PIG 中实现它。非常感谢任何帮助。

谢谢!

最佳答案

使用脚本(在 pig 之外)生成另一个文件，所有时间戳都在 MIN 和 MAX 之间，包括 MIN 和 MAX。将其加载为第二个数据集。这是我从您的数据集中使用的示例。请注意，我只填补了一些空白，而不是全部。

2013-07-09T01:17Z,d1,d2
2013-07-09T01:18Z,d1,d2
2013-07-09T03:17Z,d1,d2
2013-07-09T16:14Z,d1,d2
2013-07-09T16:15Z,d1,d2
2013-07-09T16:16Z,d1,d2
2013-07-09T16:17Z,d1,d2
2013-07-09T16:18Z,d1,d2
2013-07-09T19:17Z,d1,d2
2013-07-09T21:17Z,d1,d2

对上面的原始数据集和生成的数据集做一个COGROUP。使用嵌套的 FOREACH GENERATE 写入输出数据集。如果第一个数据集为空，则使用第二组中的值生成输出数据集，否则使用第一个数据集。这是我在这两个数据集上使用的一段代码。

Org_Set = LOAD 'pigMissingData/timeSeries' USING PigStorage(',') AS (timeStamp, fl1, fl2);
Default_set = LOAD 'pigMissingData/timeSeriesFull' USING PigStorage(',') AS (timeStamp, fl1, fl2);
coGrouped = COGROUP Org_Set BY timeStamp, Default_set BY timeStamp;

Filled_Data_set = FOREACH coGrouped {
    x = COUNT(times);
    y = (x == 0?  (Default_set.fl1, Default_set.fl2): (Org_Set.fl1, Org_Set.fl2));
    GENERATE FLATTEN(group), FLATTEN(y.$0), FLATTEN(y.$1);
};

如果您需要进一步的说明或帮助，请告诉我

关于hadoop - 如何在 pig latin 的日期时间范围内创建丢失的记录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17931813/

26

4

0

文章推荐： http - 为什么 HTTP 请求的初始连接时间这么长？

文章推荐： java - Hadoop 文件系统 : getUsed

文章推荐： hadoop - 组合器是否有条件地运行

文章推荐： windows-7 - Hive 和 PIG/Grunt shell 卡在 cygwin 上

jQuery - "each"范围内？
我有三个 td，并且正在尝试将每个内部的函数限制为仅该 td。我该怎么做呢？使用此代码，它会获取所有 3 个图像并将它们全部插入到 h2 之前: jQuery("td.frontpage_news")
excel - 大约在 Excel 范围内？
这是所需的通用公式:if((b2-b1)=c1,True,False但是，我需要 b2-b1约等于 c1 , 在 5 内大约单位(在本例中为秒)。有没有可以处理这个的函数？最佳答案你也可以试试这个
java - 验证变量在 Java 范围内
我有三个整数，作为命令行参数传入后赋值给变量。我想验证每个整数都在 1-5 范围内。有没有一种方法可以在不使用如下所示的 if 语句的情况下在 Java 中完成此操作？我想避免这样做(注意伪代码):
Javascript:检查一个数字是否在另一个数字的 n 范围内
检查某个变量 X 是否在某个变量 Z 的 n 个数字之内的最简洁方法是什么。n 是任意定义的数字(即 3)。所以我想要 if (z {something} x){ // run code i
Gradle 全局变量不在 buildscript 范围内
我的顶级 build.gradle (Gradle 2.2) 中有类似的东西 ext.repo = "https://my-artifactory-repo" buildscript { re
java - 如何在jsp中将请求对象存储在 session 范围内
我只是在我的 jsp 页面中进行随机技巧和测试。我想使用 Attributes 将 request 范围对象存储在 session 范围对象中。存储后，当尝试从请求属性中提取值(存储在 session
java - 如何将属性值保留在 session 范围内？
我正在使用 Spring 。我有一个外部化属性文件。我正在按如下方式加载它。现在我如何将 session 中的属性作为键值对保存？我尝试编写一个扩展 ServletContextListene
mysql - 获取行数在内连接 rails 范围内
我有以下范围: scope :billable, -> (range_start = nil, range_end = nil) { joins(:bids) .where("au
c# - 如何检测对象是否在 'using' 范围内？
请看我的示例代码: var testObject = new SomeClass(); using (testObject) { //At this point how can the te
c++ - 如何保持在 vector 范围内？
我目前在保持在 vector 范围内时遇到一些问题。在下面的代码中，我试图检查正在检查的数字是否小于或等于它后面的数字 #include #include #include bool fun(
javascript - 迷失在 javascript 范围内
有人可以帮我解决下面的(简化的)代码吗？我试图从幻灯片事件函数中调用 doTheSlide() 函数。我对 JS 范围的理解仍然有点可疑。实现这一目标的正确方法是什么？我收到此错误: Uncaugh
ios - 检查时间是否在 Swift 范围内
如何在 Swift 中检查时间是否在下午 6 点到晚上 11 点之间？我在使用 NSDateFormatter 时遇到了困难，我觉得一定有更简单的方法。最佳答案使用NSCalendar: let
c++ - 将世界保持在视口(viewport)范围内
我目前正在尝试创建一个 2D 横向滚动条，并且我目前有我的“世界”绘图(暂时是一个大白框)，但我无法弄清楚世界地图的边缘与边缘之间的任何关系确保视口(viewport)始终完全被 map 覆盖。我的
c++ - 模板声明不能出现在 block 范围内
我正在学习李普曼，而且我只是在学习。我在这里尝试编写一个代码，该代码将返回 vector 中的最小元素。当我在 Codeblocks 中编译我的代码时，它说:“模板声明不能出现在 block 范围内”
javascript - 范围内 JS 日期对象的百分比
我有三个日期对象。我该如何比较它们才能确定它们之间的相对差异。 oldDate = newDate() - 5; midDate = newDate() - 2.5; newDate = newDat
javascript - 检查变量是否在 Javascript 范围内
我需要检查对象“objCR”是否存在于当前范围内。我尝试使用以下代码。 if(objCR == null) alert("object is not defined"); 让我知道哪里错了。最佳答案
java - 检查ipAddress是否在私有(private)范围内
如何检查 IP 地址是否属于私有(private)类别？ if(isPrivateIPAddress(ipAddress)) { //do something } 如有
javascript - 如何查看用户选择是否在 HTML 范围内
我正在开发一个 Firefox 插件，它可以转换用户通过用户选择突出显示的屏幕温度。转换后，用户选择将替换为 ID 为 alreadyconverted 的 span HTML 元素，其中包含原始温度
Python:有效地检查整数是否在 *many* 范围内
我正在开发一个邮资应用程序，该应用程序需要根据多个邮政编码范围检查整数邮政编码，并根据邮政编码匹配的范围返回不同的代码。每个代码都有多个邮政编码范围。例如，如果邮政编码在 1000-2429、254
excel - 在 Excel 范围内 - 忽略空单元格
我正在使用 excel 范围进行连接:Set rng = Range("A1:A8")如果范围内的单元格之一为空，则会添加一个空格。你如何阻止这个空间被添加？最佳答案假设您在那些非空单元格中有常

首页

博学

6Ren·AI

商城

hadoop - 如何在 pig latin 的日期时间范围内创建丢失的记录