- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我在一个 txt 文件中有这个 smaple 数据集(格式:名字,姓氏,年龄,性别)
(Eric,Ack,27,M),(Jeremy,Ross,29,F)
(Jenny,Dicken,27,F),(Vijay,Sampath,40,M)
(Angs,Dicken,28,M),(Venu,Rao,28,M)
(Mahima,Mohanty,29,F),(Kenny,Oath,28,M)
我正在尝试像这样加载此数据:
tuple_record = LOAD '~/Documents/Pig_Tuple.txt' USING PigStorage(',') AS (details:tuple(firstname:chararray,lastname:chararray,age:int,sex:chararray));
但这不起作用:
DUMP tuple_record;
我在运行这个命令时得到了这个(即它什么都不返回)
()
()
()
()
请告知如何加载此数据集。
最佳答案
原因是,元组
和元组内的每个字段
都有相同的分隔符
(','
)。在这种情况下,pig 将解析输入并在模式转换中失败。
您可以在您的控制台中看到以下日志
"Unable to interpret the value in field being converted to type tuple, caught ParseException <Unexpect end of tuple> field discarded"
解决这个问题
您需要将元组定界符 ','
更改为不同的内容。在下面的示例中,我使用 '#'
作为分隔符而不是 ','
。您可以使用 (',') 以外的任何分隔符
您的输入文件有两个元组,但您在加载模式中只定义了一个元组,因此您还需要定义另一个。
示例:
输入
(Eric,Ack,27,M)#(Jeremy,Ross,29,F)
(Jenny,Dicken,27,F)#(Vijay,Sampath,40,M)
(Angs,Dicken,28,M)#(Venu,Rao,28,M)
(Mahima,Mohanty,29,F)#(Kenny,Oath,28,M)
Pigscript:
tuple_record = LOAD '~/Documents/Pig_Tuple.txt' USING PigStorage('#') AS (details:tuple(firstname:chararray,lastname:chararray,age:int,sex:chararray), details1:tuple(firstname1:chararray,lastname1:chararray,age1:int,sex1:chararray));
DUMP tuple_record;
输出:
((Eric,Ack,27,M),(Jeremy,Ross,29,F))
((Jenny,Dicken,27,F),(Vijay,Sampath,40,M))
((Angs,Dicken,28,M),(Venu,Rao,28,M))
((Mahima,Mohanty,29,F),(Kenny,Oath,28,M))
更新:
如何将分隔符“,”更改为不同的内容
选项 1:使用 sed
这是一个非常简单的选项,通过使用 sed 命令将 '),('
模式替换为 ')#('
模式,这样分隔符将从 ','
到同一输入文件中的 '#'
。(注意:在执行此 sed 脚本之前备份您的输入文件)
>> sed -i -- 's/),(/)#(/g' inputFile
选项 2:在不更改定界符的情况下对 pigscript 进行轻微修改
Pigscript:
--Read each input line as chararray
A = LOAD 'inputFile' AS (line:chararray);
--Remove the character '(',')' from the input
B = FOREACH A GENERATE FLATTEN(REPLACE(line,'[)(]+','')) AS (newline:chararray);
--Split the input using ',' as delimiter, 8 refer to total number of fields
C = FOREACH B GENERATE FLATTEN(STRSPLIT(newline,',',8)) AS (firstname1:chararray,lastname1:chararray,age1:int,sex1:chararray,firstname2:chararray,lastname2:chararray,age2:int,sex2:chararray);
--Group the fields and form tuples
D = FOREACH C GENERATE TOTUPLE(firstname1,lastname1,age1,sex1) AS details1,TOTUPLE(firstname2,lastname2,age2,sex2) AS details2;
--Now you can do whatever you want.
E = FOREACH D GENERATE details1.firstname1,details2.firstname2;
DUMP E;
关于hadoop - pig : Unable to load data using PigStorage,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28270169/
这个问题在这里已经有了答案: android studio adb Syntax error: ")" unexpected (4 个答案) 关闭 5 年前。 我确实将我的工作室更新到 Linux
当我打开 Android Studio 时,它会显示下面的对话框,我的应用程序无法以 Debug模式运行。 最佳答案 找到sdk->platform-tool文件夹,然后运行命令adb tcpip 5
我在 Fedora 33 机器上使用了 VSCode (1.52.1) 一段时间。 我正在使用 Docker 扩展 (v1.9.0) 但由于某种原因,在过去几天中,当我尝试将 VSCode 附加到 D
我正在尝试为我的任务加载一个名为“tr_model.h5”的预训练模型,但出现以下错误: Traceback (most recent call last): File "Trigger_Proje
我最近在 Google Play 中发布了一个 Android 应用程序,到目前为止一切看起来都很棒,但有一个异常(exception)(见下文),我有时会收到控制台崩溃的消息,它只发生在某些用户身上
单击警告时,我收到此消息。这是案件的截图。 错误写道, Unable to open 'warning.cpp': Unable to read file '/Users/dimen/code/C++
重新编译 php 后,当我使用 php cli 时出现以下错误: PHP Warning: PHP Startup: imap: Unable to initialize module Module
使用 git 1.6.4.2,当我尝试 git pull 时出现此错误: error: unable to resolve reference refs/remotes/origin/LT558-op
我是 Kotlin 的新手,我正在学习教程。运行我的应用程序会导致它在运行时崩溃。我在底部导航栏应用程序中有三个 fragment 和一个主要 Activity 。我的目标实际上只是成功运行该应用程序
我在 Windows 10 64 位上运行 Android Studio。我在 5 月 20 日早上升级到了最新的版本和 SDK,从那时起,我在打开 Android Studio 时收到上述错误。我还
因此,我创建了一个 GitHub 操作,该操作应该在发生推送时构建 docker 镜像并将其推送到 docker hub。所以这是我的 GitHub 操作:(第一次创建 GitHub 操作) name
当这些问题中的任何一个都没有帮助我时,这意味着我需要删除并重新安装 Android Studio。 这是错误: Error initializing ADB: Unable to create Deb
Iam running the latest OSX/Flutter/XCode Versions using flutter, android studio and firebase and
我最近重新安装了 ubuntu 20.04.3,在做了一些设置后,我现在在运行 apt update 时总是收到以下错误.我一定是不小心删除了某种缓存文件或目录,但我不知道如何诊断或解决这个问题。 任
今天,当我将更改推送到 Gitlab 中的代码存储库时,我才开始在 Gitlab 中收到此错误消息。 Gitlab fatal: unable to access '.......' SSL Cert
我正在使用 Protractor 和 Jasmine 。 我已经确定了 chrome 驱动程序版本:2.32.498550 (latest)与 Chrome 测试版不兼容 (Version 62.0.
我正在尝试使用 terraform (0.12.24) 和多个 Docker 提供程序(插件版本 2.7.0)执行简单部署。我使用下面的 Terraform 模板的目的是将两个不同的容器部署到两个不同
这个问题我看了很久,最后决定在这里提出来。我需要维护一些用 Delphi 2007 for .NET (ASP.NET 2.0) 编写的应用程序。通常,第一次运行应用程序(使用 IIS)时,我会收到经
如何修复 - 无法创建调试桥:无法启动 adb 服务器:无法检测 adb 版本,adb 输出:/home/dilip/Downloads/sdk/platform-tools/adb: 1:/home
通过命令提示符连接到 android 中的 Sqlite DB 时出现错误。 以下是我遵循的步骤: 我已经在 android 中通过 java 程序创建了 Sqlite 数据库。创建表并向其中插入数据
我是一名优秀的程序员,十分优秀!