gpt4 book ai didi

hadoop - 我将如何制作一个只返回条目超过一定长度的字段的 pig 脚本?

转载 作者:可可西里 更新时间:2023-11-01 14:31:54 28 4
gpt4 key购买 nike

我拥有的数据已经字段化,我只想要一个包含两个字段的文档,即便如此,如果标题字段超过一定长度,它也只包含一个条目。这是我目前所拥有的。

records = LOAD '$INPUT' USING PigStorage('\t') AS (url:chararray, title:chararray, meta:chararray, copyright:chararray, aboutUSLink:chararray, aboutTitle:chararray, aboutMeta:chararray, contactUSLink:chararray, contactTitle:chararray, contactMeta:chararray, phones:chararray);
E = FOREACH records IF SIZE(title)>10 GENERATE url,title;
STORE E INTO '$OUTPUT/phoneNumbersAndTitles';

为什么代码在 IF 处退出?

最佳答案

你应该使用 FILTER , 它根据某些条件从关系中选择元组:

filtered = FILTER records BY SIZE(title) > 10;
E = FOREACH filtered GENERATE url,title;

关于hadoop - 我将如何制作一个只返回条目超过一定长度的字段的 pig 脚本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17928998/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com