gpt4 book ai didi

apache-pig - 无法删除 Pig 中的特殊字符

转载 作者:行者123 更新时间:2023-12-04 23:21:17 25 4
gpt4 key购买 nike

我有一个要加载到 Pig Engine 上的文本文件,
文本文件在单独的行中有名称,数据但有错误......特殊字符......像这样:

Ja@@$s000on   
J@@a%^ke
T!!ina
Mel@ani

我想使用 REGEX 从所有名称中删除特殊字符....我发现在 pig 中完成这项工作的一种方法,最后将输出作为...
Jason
Jake
Tina
Melani

有人可以告诉我将在 Pig 中完成这项工作的正则表达式。
还要写下执行此操作的命令,因为我无法使用 REGEX_EXTRACT REGEX_EXTRACT_ALL 功能。
也有人可以解释在定义正则表达式后我们作为参数传递给这个函数的数字 1 的意义是什么。

任何帮助将不胜感激。

最佳答案

您可以使用 REPLACE 和 RegEx 来解决此问题。

input.txt  
Ja@@$s000on
J@@a%^ke T!!ina Mel@ani

PigScript:
A = LOAD 'input.txt' as line;
B = FOREACH A GENERATE REPLACE(line,'([^a-zA-Z\\s]+)','');
dump B;

Output:
(Jason)
(Jake Tina Melani)

关于apache-pig - 无法删除 Pig 中的特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25939194/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com