hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT

hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL

转载作者：可可西里更新时间：2023-11-01 14:42:54

33

4

我有以下文件:

File
----
12-3    John    121
 5-1    Sam     122

该文件是制表符(\t) 分隔的。我将行加载为 line:chararray，因为我希望数据不会在各个字段中拆分。

现在，我想提取详细信息(12-3 和 5-1)并将其存储为单独的数据。

我正在尝试使用 STRSPLIT 和 REGEX_EXTRACT_ALL，但数据似乎不匹配。

splitdata = FOREACH filedata {
    regex = REGEX_EXTRACT_ALL(line, '^([0-9]*)\\-([0-9]*)');
    split = STRSPLIT(line, '\\t', 1);
    GENERATE regex, split;
};

这就是我想要的最终数据:

(12, 3, 12-3    John    121)
( 5, 1,  5-1    Sam     122)

最佳答案

关于:

A = LOAD .... AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(line, '^(.*)\t(.*)\t(.*)$')) 
      AS (id:chararray, name:chararray, nameid:chararray);
C = FOREACH B GENERATE FLATTEN(REGEX_EXTRACT_ALL(id, '^([0-9]*)\\-([0-9]*)')), 
      id, name, nameid;
STORE C INTO ...

如果在加载时将行拆分为沿\t 的字段，则可以跳过 B = ...

关于hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13396778/

33

4

0

文章推荐： java - 无法识别的选项 : -cp with ProcessBuilder on Windows only

文章推荐： java - POI - 在 Excel 中打开时无法写入文件？

文章推荐： python - 为什么 os.rename() 在 Python 2.7 中引发异常？

fonts - Google Web字体中的 “latin”和 “latin-extended”字形支持的语言？
Google Web字体上的某些字体支持多个“字符集”。关键是，如果我使用的Web字体仅提供“拉丁”字形，那么将页面翻译成不支持该字形的语言的用户将清楚地注意到困惑的文本。我希望我的网络字体能够支持
html - 元标记 : title and description for both latin and non latin letter site
我有(我相信)一个独特的情况；有点困惑。这是交易。情况:我有一个单一语言的网站，其中所有内容(内容、链接)都使用非拉丁字符。 (西里尔文)(utf-8) 该网站旨在将全局读/说俄语的人联系起来。问
python - 如果我知道只会使用 Latin-1 字符，是否可以将 UTF8 编码字符插入 Latin-1 表？
我在数据库中有 10 个表。其中 9 个只存储 Latin-1 支持的标准 ascii 1 字节字符的数据。其中 1 个要求我存储仅受 UTF8 支持的特殊字符。我想使用相同的 MySQL 连接对象(
java - 如何使用eclipse编写并执行PIG Latin
我想在 Windows 中从 eclipse 执行 Pig 脚本。我已关注this link 。但它不起作用。是否需要任何插件才能做到这一点？或者只有 pig.jar 就可以了？最佳答案试试这个，
824. Goat Latin 山羊拉丁文
题目地址：https://leetcode.com/problems/goat-latin/description/ 题目描述 Asentence S is given, composed of
javascript - Pig Latin 转换器问题
我正在开发一个将普通单词转换为 pig 拉丁语的函数，但我无法将所有内容组合在一起；它必须适用于加州、手套和八。什么地方不正常？ function translate(word) {
javascript - Pig Latin Translator不会写结果？
我正在尝试编写一个 pig 拉丁语翻译器，但我的网页一直显示未定义，并且无法从文本区域读取。 html 看起来不错，但最终用户需要输入的文本区域中的文本未正确显示。我尝试使用 .textContent
hadoop - Pig Latin:加载一个非常简单的包
我写这封信是因为今天我遇到了一个问题，尽管到处搜索并尝试了许多不同的语句，但我无法以任何方式解决。我有这个输入文件: 3 {(car pen house glass)} 5 {(battery ph
emacs - 如何从原始编码系统转换为 latin-1
我有一个以前用 Latin-1 编码的文件。现在，当我打开这个文件时，我只得到原始编码。即状态行中的 -t:。文件中可能有一些非 Latin-1 字符，至少可以打开其他 Latin-1 文件。我只想
java - Pig Latin 字符串加密
我正在编写一个程序，它接受一个字符串，将其拆分为单词，将单词转换为 pig 拉丁语，然后返回结果字符串。我已经让它工作到一定程度了。例如，如果我在程序中输入这些不以元音开头的单词，我会得到: pig
c - Pig Latin 英语句子
#include #include #include #define isvowel(v) (v=='a' || v=='e' || v=='i' || v=='o' || v=='u') in
java - Pig latin 程序的输出问题
所以我是编码的新手，我遇到了一些问题...我的程序应该要求用户输入，并且需要假设所有输入都是小写...并且需要假设没有额外的空格，并且需要假设它以句点结尾。然后该程序会将文本翻译成 pig latin
java - 将单词转换为 Pig Latin
希望您一切顺利。我对 Java 和这个网站都很陌生。虽然这可能看起来很长，但我只需要两件事的帮助，所以请帮忙，就像我说的，我对这一切都很陌生，所以越彻底越好。我必须做一个项目，我们必须将常规英语单词
mysql utf8 latin，重复键输入失败
我刚刚收到一个 SQL 插入脚本，但它在重复键输入时失败了: 我正在尝试插入: 1)蒙大拿 2)蒙大拿我的表都是utf8_spanish2_ci，谁能解释为什么会这样？最佳答案 utf8_spa
python - 需要帮助将字符串翻译成 pyg latin
我想编写一个函数，它将接受一个字符串并将单词转换为 Pyg 拉丁语。这意味着: 如果单词以元音开头，则在末尾添加“-way”。示例:“ant”变成“ant-way”。如果单词以辅音簇开头，则将该辅音
c++ - Pig Latin - 字符串
所以我应该使用 stringConvertToPigLatin(string word) 函数将英语单词转换为 Pig Latin。我在网上能找到的所有答案都是使用 char[]，我不允许这样做。如果
c++ - 标记化并转换为 pig latin
这看起来像是家庭作业，但请放心，这不是家庭作业。只是我们在 c++ 类(class)中使用的书中的一个练习，我正在尝试提前阅读指针。书上的练习告诉我将一个句子拆分成标记，然后将它们中的每一个转换成
C++ Pig Latin 不工作
所以，我尝试并尝试制作这个 c++ pig 拉丁语程序，但它就是行不通。这是我的代码: int main() { string tmp = ""; char a; cout << "String: "
java - Pig latin 中扁平运算符的模式
我最近在工作中遇到了这个问题，是关于pig flatten的。我用一个简单的例子来表达它两个文件 ===文件1=== 1_a 2_b 4_d ===file2(制表符分隔)=== 1个 2乙 3c
hadoop - Pig Latin 中的聚合值
在 Pig 中执行多级过滤后，我得到以下结果 - (2343433,Argentina,2015,Sci-Fi) (2343433,France,2015,Sci-Fi) (2343433,Germa

首页

博学

6Ren·AI

商城

hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL