hadoop - PIG Join包括必须使用袋外值过滤的袋-6ren

hadoop - PIG Join包括必须使用袋外值过滤的袋

转载作者：行者123 更新时间：2023-12-02 21:22:42

25

4

我打算加快PIG的工作，并结合两个来源的web_log数据和股票定价历史记录。日期/时间被标准化为时间戳，并且对股票代码执行联接。时间戳不匹配。

jnd = JOIN web_time BY w_sym, stock_sort BY group;

该组包含特定于该符号的一袋库存数据。这是组合的架构。

jnd:{web_time::ip:chararray，web_time::user:chararray，web_time::w_time:long，web_time::url:chararray，stock_sort::sort:{(sym:chararray，time:long，price:double )}}

我需要使用web_time::w_time和time过滤stock_sort包，它不是完全匹配的。样本JND数据如下所示。

(14.192.253.226，voraciouszing，1213201721000，“GET /VLCCF.html HTTP / 1.0”，{(VLCCF，1265361975000,13.84)，(VLCCF，1265262560000,14.16)，(VLCCF，1265192740000,14.44)，(VLCCF，1265099390000， 14.48)，(VLCCF，1265028034000,14.5)，(VLCCF，1262678148000,13.76)，(VLCCF，1262607761000,13.82)，(VLCCF，1233832497000,16.9)，(VLCCF，1233740569000,16.96)...，(VLCCF，884004754000 ，23.99)，(VLCCF，883720431000,23.57)})

使用$ 2中的值，最终我需要过滤除一个条目之外的所有条目，但是现在，我尝试删除具有较小时间戳记的元组。

flake = FOREACH jnd {
    fits = FILTER jnd BY (w_time > time);
    GENERATE ip, user, w_time, url, fits;
    }

上面的方法不起作用，这是第1步，删除所有时间戳小于所需时间(w_time)的Bag Bag元组。 w_time不属于组。这真的需要UDF还是我缺少简单的东西？我停滞不前。

开发环境

Apache Pig版本0.15.0.2.4.0.0-169(rexported)
编译2016年2月10日，07:50:04
Hadoop 2.7.1.2.4.0.0-169
颠覆git@github.com:hortonworks / hadoop.git -r 26104d8ac833884c8776473823007f17
4节点Hortonworks集群

任何输入表示赞赏。

最佳答案

我认为在您的foreach中，您需要过滤stock_sort::sort。不是JND。并应通过jnd.w_time> time进行过滤。我设法写了整个流程。没有UDF。见下文。

拿了两个文件:

xact.txt:

VLCCF,1265361975000,13.84
VLCCF,1265262560000,14.16
VLCCF,1265192740000,14.44
VLCCF,1265099390000,14.48
VLCCF,1265028034000,14.5
VLCCF,1262678148000,13.76
VLCCF,1262607761000,13.82
VLCCF,1233832497000,16.9
VLCCF,1233740569000,16.96
VLCCF,884004754000,23.99
VLCCF,883720431000,23.5

stock.txt

14.192.253.226，voraciouszing，1213201721000，“GET /VLCCF.html HTTP / 1.0”，VLCCF

stock = load 'stock.txt' using PigStorage(',') as (
ip:chararray,
user:chararray,
w_time:long,
url:chararray,
symbol:chararray
);

xact = load 'xact.txt' using PigStorage(',') as (
symbol:chararray,
time:long,
price:double
);

xact_grouped = foreach(group xact by symbol) generate
    group, xact;

joined = join stock by symbol, xact_grouped by group;

filtered = foreach joined {
    grp = filter xact by time < joined.w_time;
    generate ip, grp;
};

dump filtered;

给我

(14.192.253.226，{(VLCCF，884004754000,23.99)，(VLCCF，883720431000,23.5)})

编辑:另外

stock = load 'stock.txt' using PigStorage(',') as (
ip:chararray,
user:chararray,
w_time:long,
url:chararray,
symbol:chararray
);

xact = load 'xact.txt' using PigStorage(',') as (
symbol:chararray,
time:long,
price:double
);

joined = join stock by symbol, xact by symbol;

joined_filtered = foreach (filter joined by time < w_time) generate
    ip as ip,
    user as user,
    w_time as w_time,
    stock::symbol as symbol,
    time as time,
    price as price;

grouped = foreach (group joined_filtered by (ip, user, w_time)) generate
    flatten(group),
    joined_filtered;

关于hadoop - PIG Join包括必须使用袋外值过滤的袋，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36883576/

25

4

0

文章推荐： msbuild - AfterTargets 失败不会导致 msbuild run 失败

文章推荐： javascript - 为什么我们在使用方法之前添加 req.user 对象？

文章推荐： javascript - 如何通过单击元素删除类

文章推荐： Verilog:为什么我不能反转电线？

html - 外 Angular 圆形设计气球
我试图弄清楚如何为聊天气泡制作外 Angular 圆形设计，以获得所需的结果: 我必须使用气泡作为不同背景的组件，没有相同和纯色，但有一些设计元素，所以气泡周围的空间必须是透明的: 我试过将元素添加为
css - 文本显示在 block 外
我尝试了 display:table-cell 但它没有用。我怎样才能在div中显示这个词。现在它显示溢出了 div。我在我的网页上使用 CSS2。提前致谢。 Visit W3Schools
javascript - 滑入菜单 - Canvas 外
我有一个使用 CSS 隐藏在 View (对于移动设备)之外的菜单: #filter-column { position:absolute; left:-400px; } 当用户单击链
css - 如何使用CSS将单选按钮定位在 block 外
我想创建一个这样的问题行 http://imageshack.us/photo/my-images/200/questionh.png/ 此时我的html源是: question label
Ruby:const_set 外 block ？
我要mock a class with Ruby . 如何编写处理样板代码的方法？以下代码: module Mailgun end module Acani def self.mock_mail
Java标签？外、中、内
请不要担心循环，但我的问题是关于这些关键字:outer、middle 和 inner。它们不是声明为实例变量，为什么IDE让代码编译？我在谷歌上搜索了一下，这是java标签吗？ Java中的某种关键字
除少数指定值 R 外，将所有单元格替换为 0
我有一个数据框(df)，看起来像， Id Name Activity. 1 ABC a;sldkj kkkdk 2 two
elasticsearch - 除了Elasticsearch中的反向索引(它使搜索如此之快)外，内存中还加载了什么？
Elasticsearch内存中有哪些东西可以使搜索如此快速？是所有json本身都在内存中，还是仅倒排索引和映射将在内存中24 * 7？最佳答案这是一个很好的问题，然后简而言之就是: 不仅仅是数
java - 除 I.D 外，没有数据添加到数据库中
我正在尝试添加用户在用户界面上选择的值。对于数据库中的特定列，我已经与数据库建立了连接，当我按“保存”时，新的 id 会添加到数据库中，控制台中不会显示任何错误，但我要提交的值不会放入数据库，我怎样才
CCS PIC16F628A ROM 外、A 段或程序太大
我不确定这个问题是否应该涉及电子领域，但由于它是关于编程的，所以我在这里问了它。我正在制作一个数字时钟，使用由移位寄存器供电的 LED，而不是 7 段显示器。无论如何，当使用 CCS 编译代码时，我
html - div 内的文本选择显示在 div 外
我希望用户在 div 中选择文本 (html)。然而，这样做会在浏览器中显示选择背景，也在 div 之外。我可以用(参见 http://jsfiddle.net/lborgman/aWbgT/)来防
html - Shift
block 外
我有以下 Razor View @{ ViewBag.Title = "UserCost"; }
javascript - Canvas 工具提示出现在 Canvas 外？
我使用 KineticJS 和 D3.js 制作了以下内容。当用户将鼠标悬停在其中一个点上时，我使用 KineticJS 让我弹出工具提示。但是，由于 Canvas 的边界，工具提示似乎被切断了。有没
programming-languages - 除 C++ 外，哪些编程语言支持运算符重载？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 2 年前。 Improve this qu
java - 除index.xhtml 外，JSF 页面未执行
我正在使用 primefaces 学习 Java Web 和 jsf。我的项目当前只有一个index.xhtml 文件，当我访问localhost:8080/appname/时，index.xhtm
iphone - 不让 UIButton 拖到 Circle 外
我是 ios 新手。我有一个 View ，其中我使用 Quarts 核心绘制了一个圆圈。我在该圆圈中放置了一个 UIButton，并赋予了拖放该按钮的功能。现在我想要限制按钮不能被拖出那个圆圈区
javascript - 除加法 (+) 外，所有 JavaScript 算术运算符均有效
这个问题已经有答案了: How to add two strings as if they were numbers? [duplicate] (20 个回答) How to force JS to
jquery - 在不触发滚动条的情况下将元素定位在 css 动画的视口(viewport)外
我正在创建简单的文本从右侧滑动到页面的 css 动画。我正在使用 jQuery 通过向元素添加一个类来触发动画。但是起始位置必须在视口(viewport)之外，这会触发底部滚动条出现。如何预防？这是
ruby - 有没有办法访问 block 外 block 内定义的局部变量？
我编写了一个简单的代码来评估一段代码并将输出写入文件。这样它减少了我的一些，因为我需要很多很多文件，每一行都包含返回值! 无论如何，我正在使用的代码是: #!/usr/bin/ruby -w def
ios - 抄袭。除 sprite 外，处处填满屏幕
所以我试图在我的一款游戏中加入一个非常基本的“手电筒”式的东西。我让它工作的方式是在我的游戏屏幕顶部有一个层，这个层会绘制一个黑色矩形，不透明度约为 80%，在我的游戏场景顶部创建黑暗的外观。 cc

首页

博学

6Ren·AI

商城

hadoop - PIG Join包括必须使用袋外值过滤的袋