hadoop - pig : Unable to load data using PigStorage-6ren

hadoop - pig : Unable to load data using PigStorage

转载作者：可可西里更新时间：2023-11-01 14:47:06

25

4

我在一个 txt 文件中有这个 smaple 数据集(格式:名字，姓氏，年龄，性别)

(Eric,Ack,27,M),(Jeremy,Ross,29,F)
(Jenny,Dicken,27,F),(Vijay,Sampath,40,M)
(Angs,Dicken,28,M),(Venu,Rao,28,M)
(Mahima,Mohanty,29,F),(Kenny,Oath,28,M)

我正在尝试像这样加载此数据:

tuple_record = LOAD '~/Documents/Pig_Tuple.txt' USING PigStorage(',') AS (details:tuple(firstname:chararray,lastname:chararray,age:int,sex:chararray));

但这不起作用:

DUMP tuple_record;

我在运行这个命令时得到了这个(即它什么都不返回)

()
()
()
()

请告知如何加载此数据集。

最佳答案

原因是，元组和元组内的每个字段都有相同的分隔符(',')。在这种情况下，pig 将解析输入并在模式转换中失败。

您可以在您的控制台中看到以下日志

"Unable to interpret the value in field being converted to type tuple, caught ParseException <Unexpect end of tuple> field discarded"

解决这个问题

您需要将元组定界符 ',' 更改为不同的内容。在下面的示例中，我使用 '#' 作为分隔符而不是 ','。您可以使用 (',') 以外的任何分隔符
您的输入文件有两个元组，但您在加载模式中只定义了一个元组，因此您还需要定义另一个。

示例:

输入

(Eric,Ack,27,M)#(Jeremy,Ross,29,F)
(Jenny,Dicken,27,F)#(Vijay,Sampath,40,M)
(Angs,Dicken,28,M)#(Venu,Rao,28,M)
(Mahima,Mohanty,29,F)#(Kenny,Oath,28,M)

Pigscript:

tuple_record = LOAD '~/Documents/Pig_Tuple.txt' USING PigStorage('#') AS (details:tuple(firstname:chararray,lastname:chararray,age:int,sex:chararray), details1:tuple(firstname1:chararray,lastname1:chararray,age1:int,sex1:chararray));
DUMP tuple_record;

输出:

((Eric,Ack,27,M),(Jeremy,Ross,29,F))
((Jenny,Dicken,27,F),(Vijay,Sampath,40,M))
((Angs,Dicken,28,M),(Venu,Rao,28,M))
((Mahima,Mohanty,29,F),(Kenny,Oath,28,M))

更新:
如何将分隔符“,”更改为不同的内容
选项 1:使用 sed
这是一个非常简单的选项，通过使用 sed 命令将 '),(' 模式替换为 ')#(' 模式，这样分隔符将从 ',' 到同一输入文件中的 '#'。(注意:在执行此 sed 脚本之前备份您的输入文件)

>> sed -i -- 's/),(/)#(/g' inputFile

选项 2:在不更改定界符的情况下对 pigscript 进行轻微修改
Pigscript:

--Read each input line as chararray
A = LOAD 'inputFile' AS (line:chararray);

--Remove the character '(',')' from the input
B = FOREACH A GENERATE FLATTEN(REPLACE(line,'[)(]+','')) AS (newline:chararray);

--Split the input using ',' as delimiter, 8 refer to total number of fields
C = FOREACH B GENERATE FLATTEN(STRSPLIT(newline,',',8)) AS (firstname1:chararray,lastname1:chararray,age1:int,sex1:chararray,firstname2:chararray,lastname2:chararray,age2:int,sex2:chararray);

--Group the fields and form tuples 
D = FOREACH C GENERATE TOTUPLE(firstname1,lastname1,age1,sex1) AS details1,TOTUPLE(firstname2,lastname2,age2,sex2) AS details2;

--Now you can do whatever you want.
E = FOREACH D GENERATE details1.firstname1,details2.firstname2;
DUMP E;

关于hadoop - pig : Unable to load data using PigStorage，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28270169/

25

4

0

文章推荐： hadoop - 容器运行超出物理内存。 Hadoop 流 python MR

文章推荐： html - 使 div 占据边距未使用的全部空间

android - ADB 连接错误 : Unable to create Debug Bridge: Unable to start adb server: Unable to detect adb version, adb 输出
这个问题在这里已经有了答案: android studio adb Syntax error: ")" unexpected (4 个答案) 关闭 5 年前。我确实将我的工作室更新到 Linux
Android Studio 显示对话框 "unable to create debug bridge : unable to start adb server: unable to obtain result of ' adb version'"
当我打开 Android Studio 时，它会显示下面的对话框，我的应用程序无法以 Debug模式运行。最佳答案找到sdk->platform-tool文件夹，然后运行命令adb tcpip 5
docker - VSCode "Unable to open Unable to read file"
我在 Fedora 33 机器上使用了 VSCode (1.52.1) 一段时间。我正在使用 Docker 扩展 (v1.9.0) 但由于某种原因，在过去几天中，当我尝试将 VSCode 附加到 D
python-3.x - 操作系统错误 : Unable to open file (unable to open file)
我正在尝试为我的任务加载一个名为“tr_model.h5”的预训练模型，但出现以下错误: Traceback (most recent call last): File "Trigger_Proje
java.lang.RuntimeException : Unable to instantiate activity (unable to open DEX file)
我最近在 Google Play 中发布了一个 Android 应用程序，到目前为止一切看起来都很棒，但有一个异常(exception)(见下文)，我有时会收到控制台崩溃的消息，它只发生在某些用户身上
c++ - 点击错误时的 vscode "Unable to open [file]: Unable to read file"消息
单击警告时，我收到此消息。这是案件的截图。错误写道， Unable to open 'warning.cpp': Unable to read file '/Users/dimen/code/C++
重新编译 php 后的警告 (Unable to load dynamic library & Unable to initialize module)
重新编译 php 后，当我使用 php cli 时出现以下错误: PHP Warning: PHP Startup: imap: Unable to initialize module Module
git pull 失败 "unable to resolve reference" "unable to update local ref"
使用 git 1.6.4.2，当我尝试 git pull 时出现此错误: error: unable to resolve reference refs/remotes/origin/LT558-op
android - 多个异常 : Unable to start activity, Unable to instantiate fragment, Error inflating class
我是 Kotlin 的新手，我正在学习教程。运行我的应用程序会导致它在运行时崩溃。我在底部导航栏应用程序中有三个 fragment 和一个主要 Activity 。我的目标实际上只是成功运行该应用程序
android-studio - 无法创建调试桥: Unable to start adb server: Unable to obtain result of 'adb version'
我在 Windows 10 64 位上运行 Android Studio。我在 5 月 20 日早上升级到了最新的版本和 SDK，从那时起，我在打开 Android Studio 时收到上述错误。我还
docker - Github 操作 : unable to prepare context: unable to evaluate symlinks in Dockerfile path: lstat
因此，我创建了一个 GitHub 操作，该操作应该在发生推送时构建 docker 镜像并将其推送到 docker hub。所以这是我的 GitHub 操作:(第一次创建 GitHub 操作) name
android - 初始化 ADB 错误 : Unable to create Debug Bridge: Unable to start ADB server
当这些问题中的任何一个都没有帮助我时，这意味着我需要删除并重新安装 Android Studio。这是错误: Error initializing ADB: Unable to create Deb
Flutter: XCode error "Unable to boot the Simulator"(颤动：Xcode错误“Unable to Boot the Simulator(无法启动模拟器)”)
Iam running the latest OSX/Flutter/XCode Versions using flutter, android studio and firebase and
ubuntu apt : how to fix this error? ... "Unable to open temporary cache: Unable to open temporary cache file"
我最近重新安装了 ubuntu 20.04.3，在做了一些设置后，我现在在运行 apt update 时总是收到以下错误.我一定是不小心删除了某种缓存文件或目录，但我不知道如何诊断或解决这个问题。任
ssl - Gitlab 致命 : unable to access '.......' SSL Certificate problem: unable to get issuer certificate
今天，当我将更改推送到 Gitlab 中的代码存储库时，我才开始在 Gitlab 中收到此错误消息。 Gitlab fatal: unable to access '.......' SSL Cert
selenium-webdriver - "unable to connect to renderer": Unable to resize or maximize the browser window using protractor with chrome beta
我正在使用 Protractor 和 Jasmine 。我已经确定了 chrome 驱动程序版本:2.32.498550 (latest)与 Chrome 测试版不兼容 (Version 62.0.
docker - 为什么在使用多个 Docker 主机时出现 Unable to create container with image Unable to pull image 错误 pulling image？
我正在尝试使用 terraform (0.12.24) 和多个 Docker 提供程序(插件版本 2.7.0)执行简单部署。我使用下面的 Terraform 模板的目的是将两个不同的容器部署到两个不同
asp.net - Delphi 2007 for .NET 中的错误 "Unable to start debugging...Unable to attach to ASP.NET worker process"消息
这个问题我看了很久，最后决定在这里提出来。我需要维护一些用 Delphi 2007 for .NET (ASP.NET 2.0) 编写的应用程序。通常，第一次运行应用程序(使用 IIS)时，我会收到经
android - 无法创建调试桥 : Unable to start adb server: Unable to detect adb version, adb 输出:/sdk/platform-tools/adb:
如何修复 - 无法创建调试桥:无法启动 adb 服务器:无法检测 adb 版本，adb 输出:/home/dilip/Downloads/sdk/platform-tools/adb: 1:/home
android - SQLite 错误 : unable to open database "/data/data/PackageName/databases/SampleDB.db": unable to open database file
通过命令提示符连接到 android 中的 Sqlite DB 时出现错误。以下是我遵循的步骤: 我已经在 android 中通过 java 程序创建了 Sqlite 数据库。创建表并向其中插入数据

首页

博学

6Ren·AI

商城

hadoop - pig : Unable to load data using PigStorage