hadoop - 从袋子里取出一个元组-6ren

hadoop - 从袋子里取出一个元组

转载作者：行者123 更新时间：2023-12-02 19:51:21

25

4

我有一个看起来像这样的元组袋关系。包中的元组已预购。
{(123,1383313457523,1,US),(123,1383313457543,2,US),(123,1383313457553,3,US)}{(456,1383313457623,1,UK),(456,1383313457643,2,UK),(456,1383313457653,3,UK)}{(789,1383313457723,1,UK),(789,1383313457743,2,UK),(789,1383313457753,3,UK)}
元组在哪里:(id:chararray,time:long,event:chararray,location,chararray)
我想获得每个包的第一要素。所以我的预期输出将是:
(123,1383313457523,1,US) (456,1383313457623,1,UK) (789,1383313457723,1,UK)
我尝试了这个:

data = load 'mydata.txt' USING  PigStorage('\t');
A = FOREACH data GENERATE $0;

dump A;

产生的数据包列表与我原来的列表相同。

或者尝试仅提取ID

data = load 'mydata.txt' USING  PigStorage('\t');
A = FOREACH data GENERATE $0.$0;

dump A;

我预计:

(123)
(456)
(789)

但我明白了

{(123),(123),(123)}
{(456),(456),(456)}
{(789),(789),(789)}

如何调整脚本以获取所需的数据。

最佳答案

在嵌套的foreach中使用LIMIT:

A = FOREACH data { first = LIMIT $0 1; GENERATE FLATTEN(first); }

您不能指望要订购的包中的元组，因为根据定义，这是无序的。但是，您也可以将 ORDER BY放在嵌套的foreach中:

A = FOREACH data { ord = ORDER $0 BY $1; first = LIMIT ord 1; GENERATE FLATTEN(first); }

如果将它们分成多行，我发现它们更具可读性:

A =
    FOREACH data {
        ord = ORDER $0 BY $1;
        first = LIMIT ord 1;
    GENERATE
        FLATTEN(first);
    };

我假设包是由每个元组的第二个字段( $1)排序的。

关于hadoop - 从袋子里取出一个元组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22286087/

25

4

0

文章推荐： docker - 强制在特定的Docker层上构建

文章推荐： docker - 通过 nginx websocket 代理连接时 WebApp 崩溃

hadoop - 取出 pig 中的空袋
我有这样的数据。 (a,b,c,d) (g,b,v,n) (n,h,l,o) (,,,) (,,,) (,,,) (,,,) 我想取出空袋子。所需的输出 (a,b,c,d) (g,b,v,n) (n
python - 取出 CSV 的一些内容
我是编程新手，我有一堆 CSV 文件，每个文件大约有 50 到 60 行。在未指定数量的行之后，第二列中有一个名为“NAME”的字符串。我想获取“NAME”之后第二列中的所有内容并将其打印到文本文件中
c# - 使用 linq 取出 foreach
有没有办法在 linq 中删除以下代码中的 foreach 并产生相同的输出？ DropDownList ddl = new DropDownList(); foreach (Data
ios - 我可以从UICollectionView中“取出”或“撕下”一个单元格吗？
注意-可以使用UIViewControllerAnimatedTransitioning https://developer.apple.com/library/ios/documentation/u
php - 取出 PHP Session 以在 Swift 中显示网站
因此，我开始使用 Swift 为网站构建应用程序。主要目标是拥有一个可以接收通知(来自网站的 JSON)并可以显示网站所有功能的 iOS 应用程序。所以我可以从应用程序登录并注册到我的数据库，但问题是
iphone - 使用 ALAssetsLibrary 和 ALAsset 取出 Image 作为 NSData
我希望直接使用 ALAssetsLibrary 和 ALAsset 以 NSData 对象的形式提取图像。使用 NSURL，我按以下方式取出图像。 NSURL *referenceURL =newU

首页

博学

6Ren·AI

商城

hadoop - 从袋子里取出一个元组