regex - Hadoop pig : Extract all substrings matching a given regular expression-6ren

regex - Hadoop pig : Extract all substrings matching a given regular expression

转载作者：行者123 更新时间：2023-12-01 09:36:11

24

4

我正在解析以下形式的一些数据:

(['L123', 'L234', 'L1', 'L253764'])
(['L23', 'L2'])
(['L5'])
...

括号内的短语(包括方括号)被编码为单个字符数组。

我只想提取 L+(数字)标签以获得以下形式的元组:

((L123, L234, L1, L253764))
((L23, L2))
((L5))

我尝试使用正则表达式“(L\d+)”使用 REGEX_EXTRACT_ALL，但它似乎每行只提取一个标签，这对我来说毫无用处。有没有办法按照我上面描述的方式创建元组？

最佳答案

如果顺序无关紧要，那么这将起作用:

-- foo is the tuple, and bar is the name of the chararray
B = FOREACH A GENERATE TOKENIZE(foo.bar, ',') AS values: {T: (value: chararray)} ; 
C = FOREACH B {
    clean_values = FOREACH values GENERATE  
                   REGEX_EXTRACT(value, '(L[0-9]+)', 1) AS clean_value: chararray ; 
    GENERATE clean_values ;
}

架构和输出是:

C: {clean_values: {T: (clean_value: chararray)}}
({(L123),(L234),(L1),(L253764)})
({(L23),(L2)})
({(L5)})

通常，如果您不知道数组将包含多少个元素，那么包会更好。

关于regex - Hadoop pig : Extract all substrings matching a given regular expression，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17666465/

24

4

0

文章推荐：需要Scala Graph Cycle Detection Algo 'return'吗？

文章推荐：为未构建的目标调试 Makefile

css - mini-css-extract-plugin block 中的警告chunkName [mini-css-extract-plugin]之间的冲突顺序:
警告在块AccessRights〜Groups〜Navigator中[mini-css-extract-plugin] 之间的顺序冲突: css ../node_modules/css-loader?
mysql - 选择 unique (extract(year from saledate) || extract(month from saledate)) as ym from trnsact order by ym;
解决练习问题“对于数据库中的每个月/年组合，交易表的销售日期列中有多少个不同的日期？”我发现一个有效的查询，它显然结合了年份和月份 SELECT DISTINCT (extract(year from
mysql - 使用 EXTRACT YEAR、EXTRACT MONTH 和 CONCAT 函数获取 "Month Name, YYYY"格式的日期
我有一个名为 Student 的 MySQL 表，它有一个名为 entry_date 的列，类型为 date。我想选择以下形式的 entry_date: November, 2014 即它将显示 en
Python + Selenium ( Chrome ): How can I extract a specific text from my current url and use the extracted text to go to another?
我已经使用 iMacros 很长时间了，我有一个代码可以提取文本并使用它来创建我需要的特定 URL。事情是这样的: #I can extract the XPath text with this.
extract - 如何从saz文件中提取文件？
我将一个 session 从 Fiddler 导出到 saz 文件。此 session 仅包含 jpg 文件，我想知道 - 如何快速轻松地从 saz 中提取 jpg 文件？谢谢! 最佳答案提取 J
extract - 如何从倒谱中提取基频？
应用 FFT 后，我得到了具有多个频率段的频谱。如何使用倒谱方法从该频谱中获取基频？我做了很多研究，尝试了很多代码，并在 stackoverflow 上问了三遍(这很有帮助)，我非常确定倒谱方法是在
extract - 反编译/提取微软代理？
我正在寻找一种解压缩或反编译微软代理的方法。例如梅林代理我想提取动画/图像。到目前为止我发现的最好方法是。用粉红色背景录制我的屏幕。并分割视频......但这不是一个很好的做法...... 有小费
python - --extract-audio等同于YoutubeDL类？
我只想从youtube链接中提取MP3格式的音频，但是如果不从命令行使用youtube-dl选项调用--extract-audio，就无法弄清楚该如何做。在YoutubeDL类中是否有一种类似于her
Azure管道: could not extract archive
我有一个 Azure 管道，应该构建一个项目并将 jar 复制到 Artifactory。这是应该安装节点的 yml: - task: NodeTool@0 inputs: version
php - 使用带有连字符的 extract()
例如，如果您有一个如下所示的关联数组: $array = array('first-value' => 'Hello'); 然后你要提取它: extract($array); 由于变量名称中不能使用连
text-extraction - 如何使用查询从大文本中自动提取数据
我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。我正在寻找一种服务，允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。 (示例:x 的最大授权长度是多少？)
extract - RDFa Reader提取工具
我是 RDF 初学者，我想从 HTML 中提取 RDF我正在使用 GRDDL，但它不太适合我，我每次都会收到安全异常:(您能向我推荐另一个工具吗？感谢您的帮助。最佳答案我通常使用说唱歌手，你可以
php - extract() 如何在当前范围内创建变量？
我很好奇，PHP 的函数是如何实现的extract有用吗？我想做一个稍微修改的版本。我希望我的函数在从蛇形符号到驼峰式的数组键中提取时生成变量名，例如: 现在 extract 这样做: $array
PHP extract() 函数
如果我使用 PHP 的 extract() 函数从数组中导入变量，同名变量会被覆盖吗？我问的原因是因为我正在尝试初始化所有变量。感谢您的宝贵时间。最佳答案默认情况下它将覆盖。 http://ph
text-extraction - 如何使用查询从大文本中自动提取数据
我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。我正在寻找一种服务，允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。 (示例:x 的最大授权长度是多少？)
Python多处理: Extracting results
我正在尝试在 Python 中运行大量模拟，因此我尝试使用多处理来实现它。 import numpy as np import matplotlib.pyplot as plt import mult
javascript extract ..在值的第一个下划线处停止
尝试从主机名-rt45_34_we_35 中提取主机名-rt45。我正在使用/(.)_?./g。这似乎不起作用。我已经查看了正则表达式文档。想用？会使它变得贪婪并在第一个下划线处停止。我错过了什么？
java - Extract 通过正则表达式连接字符串中的变量
我目前正在从事一个数据挖掘项目。我必须阅读 C# 源代码，并且必须找到连接 SQL 语句的位置。我真正想要的是获取连接字符串变量名称的名称。示例: stat = "SELECT * FROM CUS
MySQL Extract 函数给出语法错误
我正在订单表上运行查询，以计算每个用户在 6 个月前一个月内的任何一天发出的请求总数(例如:2013 年 8 月)。这工作正常:- SELECT userid,firstname,surname,s
PHP:如何避免在特定情况下使用 extract()
我对 PHP 很陌生，并且到处都看到不建议使用提取函数。我正在从 mysql 表中获取数据来填充网站的一部分。因此我不知道该表可以有多少行。所以我使用 extract 函数，它为每行提供一个数组数组

首页

博学

6Ren·AI

商城

regex - Hadoop pig : Extract all substrings matching a given regular expression