gpt4 book ai didi

hadoop - 如何为制表符分隔的数据编写PIG UDF并在左侧添加时间戳?

转载 作者:行者123 更新时间:2023-12-02 22:03:39 25 4
gpt4 key购买 nike

我正在尝试为下面的示例输入文件编写PIG UDF,并且还指定了预期的输出。请同样使用udf模板来帮助我,或者让我知道是否有一种方法可以不使用UDF。

我的样本输入:

2014-01-23T08:12:09.259443
Device Type make year
-- ------------ --------- --------------------------------------- -------------
desktop commercial hp 2010
laptop commercial Asus 2013
mobile personal Sony 2014


2015-01-15T08:12:09.259443
Device Type make year
-- ------------ --------- --------------------------------------- -------------
desktop commercial hp 2015
laptop commercial Asus 2016
mobile personal Sony 2013

我基本上需要将输出作为时间戳,然后以分隔的分隔方式分隔字段,分隔符可以为',','\ t','|'。在这种情况下,我使用','作为分隔符。

预期产量:
   2014-01-23T08:12:09.259443, desktop, commercial, hp, 2010
2014-01-23T08:12:09.259443, laptop, commercial, Asus, 2013
2014-01-23T08:12:09.259443, mobile, personal, Sony, 2014
2015-01-15T08:12:09.259443, desktop, commercial, hp, 2015
2015-01-15T08:12:09.259443, laptop, commercial, Asus, 2016
2015-01-15T08:12:09.259443, mobile, personal, Sony, 2013

注意:我无法进行预处理,因为文件有一些TB

最佳答案

这是逻辑:

while(str.hasMoreTokens()){
val=str.nextToken();
Pattern pa = Pattern.compile("\\d+[-]\\d+[-]\\d+[T]\\d+[:]\\d+[:]\\d+(\\.\\d+)?");
Matcher ma = pa.matcher(val);
boolean b = ma.matches();
if(b==true)
{
timestamp=ma.group().substring(0, 19);
//System.out.println(timestamp);
}

else if(val.contains("Device") || val.contains("Type") || val.contains("make ") || val.contains("year") || val.contains("--") || val.contains("------------") || val.contains("---------") || val.contains("---------------------------------------") || val.contains("-------------"))
{

}
else if(val!=timestamp){

result=timestamp+val;

}

if(result.length()>0){

System.out.println(result.substring(0));
}
}

如果有更有效/更好的方法,请告诉我。
谢谢!

关于hadoop - 如何为制表符分隔的数据编写PIG UDF并在左侧添加时间戳?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42249903/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com