gpt4 book ai didi

hadoop - Apache Hive regexp_extract UDF

转载 作者:可可西里 更新时间:2023-11-01 14:20:21 26 4
gpt4 key购买 nike

我在 Apache Hive 中遇到一段代码,如 regexp_extract(input, '[0-9]*', 0),有人可以向我解释这段代码的作用吗?谢谢

最佳答案

来自 the Hive manual DDL ,它返回使用模式提取的字符串。例如regexp_extract('foothebar', 'foo(.*?)(bar)', 2) 返回 bar

index参数是捕获组,它是一个整数,可以取以下值:

  • 0:整个比赛,在我的例子中是foothebar
  • 1:第一组,在我的例子中是the
  • 2:第二组,在我的例子中是bar
  • n:第n组。如果 n 大于正则表达式中定义的实际组数,则 Hive 查询将失败。

在您的示例中,regexp_extract(input, '[0-9]*', 0),您正在寻找由 input 标识的列的整个匹配项并以数值开头。

这里有几个例子:

  • regexp_extract('9eleven', '[0-9]*', 0) -> 返回 9
  • regexp_extract('9eleven', '[0-9]*', 1) -> 查询失败
  • regexp_extract('911test', '[0-9]*', 0) -> 返回 911
  • regexp_extract('911test', '[0-9]*', 1) -> 查询失败
  • regexp_extract('11', '[0-9]*', 0) -> 返回空字符串
  • regexp_extract('test911', '[0-9]*', 0) -> 返回空字符串

关于hadoop - Apache Hive regexp_extract UDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14371769/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com