gpt4 book ai didi

hadoop - PigStorage() 中的正则表达式

转载 作者:可可西里 更新时间:2023-11-01 16:44:18 24 4
gpt4 key购买 nike

我在通过 pig 将日志文件加载到 hdfs 时感到震惊。基本上,此日志文件具有用于分析的 WebSphere Server 异常。

现在,在分解异常详细信息的组件并加载到架构中时,我无法将正则表达式指定到 PigStorage 构造函数中。

我的代码:

inputFile = load '/datalake/xxx/yyy/bd_cni/log_analytics_project/raw_data/APSRP7420/SystemOut_16.05.22_11.46.13.log' USING PigStorage('\[\d+\/\d+\/\d+\s+\d+\:\d+\:\d+\:\d+\s+\w+\]') as (someColumnName:chararray);

我得到的错误:

[main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: <line 1, column 147>  Unexpected character '['
Details at logfile: /home/rshukla8/pig_1466510599995.log

我对 PIG 和 Unix 完全是新手,所以这里的任何指示都会有所帮助。

最佳答案

PigStorage不能用正则表达式实例化,相反,您可以使用 piggybankMyRegExLoader(String pattern)图书馆

inputFile = load '/datalake/xxx/yyy/bd_cni/log_analytics_project/raw_data/APSRP7420/SystemOut_16.05.22_11.46.13.log' USING org.apache.pig.piggybank.storage.MyRegExLoader('\[\d+\/\d+\/\d+\s+\d+\:\d+\:\d+\:\d+\s+\w+\]') as (someColumnName:chararray);

关于hadoop - PigStorage() 中的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37944485/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com