regex - Spark 2.2/Jupyter Notebook SQL regexp_extract 函数与正则表达式模式不匹配-6ren

regex - Spark 2.2/Jupyter Notebook SQL regexp_extract 函数与正则表达式模式不匹配

转载作者：行者123 更新时间：2023-12-04 06:33:05

31

4

我在 Jupyter (Scala) 笔记本中使用 regexp_extract Spark 2.2 SQL 函数来匹配 11 个或更多重复字符的字符串。

这是正则表达式:

^(.)\1{10,}$

现在，让我们看看使用 regexp_extract 函数的模式。这是我在笔记本中使用它的方式:

spark.sql("SELECT REGEXP_EXTRACT('hhhhhhhhhhhhh', '^(.)\\1{10,}$', 1) as ExtractedChar").show()

+-------------+
|ExtractedChar|
+-------------+
|             |
+-------------+

奇怪，没有输出。让我们确保我的正则表达式模式实际上是正确的。 Yep, looks right.

您可能想知道为什么正则表达式模式包含两个“\\”字符，因为它是一个转义字符，所以两个是必需的。这里有一些验证:

1. val string = "SELECT REGEXP_EXTRACT('hhhhhhhhhhhhhhhhhhhhh', '^(.)\\1{10,}$', 1) as ExtractedChar"
2. println(string)
SELECT REGEXP_EXTRACT('hhhhhhhhhhhhhhhhhhhhh', '^(.)\1{10,}$', 1) as ExtractedChar

好的，让我们确保 regexp_extract 函数正常工作:

spark.sqlContext.sql("SELECT REGEXP_EXTRACT('TESTING', '^.', 0) as test").show()
+----+
|test|
+----+
|   T|
+----+

好的，也许问题出在 Jupyter 笔记本上？检查并使用 Scala REPL 后，我仍然遇到同样的问题。

为什么我无法让这个正则表达式成功匹配的任何想法？

编辑:Spark SQL 是一个要求。我可以使用 Scala 创建自己的 UDF；然而，UDF 被 Spark 黑盒化，这意味着它们不会被完全优化。

最佳答案

我找到了解决方案。 SQL 字符串需要包含 4 个“\”字符，如下所示:

'^(.)\\\\1{10,}$'

关于regex - Spark 2.2/Jupyter Notebook SQL regexp_extract 函数与正则表达式模式不匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46163433/

31

4

0

文章推荐： python-3.x - Luigi LocalTarget 二进制文件

文章推荐： image - RGB 图像中使用的最大颜色

文章推荐： ruby-on-rails - rspec DatabaseCleaner 跳过清理例如组元数据标签

regex - 配置单元查询 regexp_extract
我正在尝试从“[223.104.227.42]”中提取 IP 地址。我想提取“[”和“]”之间的 223.104.227.42，我正在使用这个查询: select regexp_extract('[2
Regexp_Extract 分隔字符串中的第 n 个位置
我有一个格式的字符串: abc_fjs_dja_sja_dj_sadjasdksa_sdjakd_match_fsja_fsdk 我想REGEXP_EXTRACT第8个分隔位置的字符串(_作为分隔符)
regex - hive regexp_extract 奇怪之处
我在使用 regexp_extract 时遇到了一些问题: 我正在查询一个制表符分隔的文件，我正在检查的列有如下所示的字符串: abc.def.ghi 现在，如果我这样做: select distin
sql - 使用 REGEXP_EXTRACT 获取域和子域
我只成功提取了我使用的网站列表的 TLD REGEXP_EXTRACT(Domain_name, r'(\.[^.:]*)]\.?:?[0-9]*$') AS web_tld 示例: 我有 www.e
regex - 配置单元查询 regexp_extract 失败
我正在尝试使用 regexp_extract 从表中的列(字符串数据类型)中提取所需的数据，我正在使用此查询: 从表中选择 regexp_extract(concat(column_name,;),'
Hive 中的 regexp_extract 参数
花括号中的参数在下面的代码段中有什么作用？ regexp_extract(col_value, '^(?:([^,]*)\,?){1}', 1) Id, regexp_extract(col_val
regex - 配置单元 regexp_extract 返回 NULL
对正则表达式的世界来说相对较新，所以请多多包涵。我正在尝试使用 regexp_extract 提取字符串中的特定数据子集，但它为我当前尝试使用的正则表达式返回 NULL。要求如下:- String
regex - 在 Hive 中使用 regexp_extract
我正在尝试从配置单元表中查找行，其中特定列不包含空值或\N 值或 STX 字符“\002”。目标是找到哪些行包含这三个以外的一些字符。我尝试了这个配置单元查询: select column1
regex - 使用 REGEXP_EXTRACT 没有给出预期的结果 - Hive
我正在尝试在 Hive 中使用 REGEXP_EXTRACT 函数从列中获取所需的字符串。列中数据的形式为: 单词\more_words 我需要提取 \ 之后的字符串部分。我试着做这样的事情: SEL
hadoop - Apache Hive regexp_extract UDF
我在 Apache Hive 中遇到一段代码，如 regexp_extract(input, '[0-9]*', 0)，有人可以向我解释这段代码的作用吗？谢谢最佳答案来自 the Hive man
regex - 如何使用 Hive REGEXP_EXTRACT() 函数删除非字母数字或非数字字符
我一直在尝试弄清楚如何删除多个非字母数字或非数字字符，或者仅返回字符串中的数字字符。我试过: SELECT regexp_extract('X789', '[0-9]', 0) FROM table_
Google Data Studio 中的 REGEXP_EXTRACT 特定字符串
我在 session_id 列中有一个 ID，当前格式为: [P0000000000109669288] (https://link.com/#/company::_e73d4f95_a66f_436
sql - 在 Google BigQuery 中使用 regexp_extract 提取数据
我正在尝试从具有多个字符的列中提取数据，我只对从输入字符串中获取特定字符串感兴趣。我的样本输入和输出如下。我怎样才能使用 regexp_extract 函数实现它。如果你在 GBQ 上工作，有人可以分
apache-spark - Spark : return null from failed regexp_extract()
假设您尝试从数据帧的列中提取子字符串。 regexp_extract()如果字段本身为空，则返回空值，但如果字段不为空但找不到表达式，则返回空字符串。对于后一种情况，您如何返回空值？ df = spa
REGEXP_EXTRACT 字符串以 AG 或 TS 开头，之后捕获所有内容
下面是数据集示例，每一行都有以下值: 排值(value) 1 AG3608-sueyfbnd-sjwfk 2 TS2649-sjwjmdaqo-wkdmfl 3 乌杰奥尔索普 4 sjhwu78iw
regex - Spark 2.2/Jupyter Notebook SQL regexp_extract 函数与正则表达式模式不匹配
我在 Jupyter (Scala) 笔记本中使用 regexp_extract Spark 2.2 SQL 函数来匹配 11 个或更多重复字符的字符串。这是正则表达式: ^(.)\1{10,}$
regex - 当 regexp_like 和 regexp_extract 工作正常时，Impala regexp_like 查询返回 null
我需要使用 regex_extract 从列中的字符串中提取数字。我在外部表上使用 Impala。我已经检查了正则表达式，为了测试它，我还使用了 regexp_like 和 regexp_repla
regex - REGEXP_EXTRACT(word,r'(\w\w\'\w\w)' ) 中的 r 是什么意思
我在 BigQuery Reference 或 re2 wiki 中都找不到答案。在 BigQuery Reference 中 Regex 部分的所有示例中，每个 regex 之前都有一个“r”，但
sql - 使用 Big Query/Google Analytics 的 Regexp_extract 将子字符串从字符 A 提取到字符 B 或 EOL
我正在使用 Google Big Query，并尝试使用 Regexp_extract 将一些信息从字符串列提取到另一列中。简而言之: myVariable中的数据: yippie/eggs-spam

首页

博学

6Ren·AI

商城

regex - Spark 2.2/Jupyter Notebook SQL regexp_extract 函数与正则表达式模式不匹配