gpt4 book ai didi

hadoop - Pig 可以处理 ebcdic 格式文件吗?

转载 作者:可可西里 更新时间:2023-11-01 15:15:06 24 4
gpt4 key购买 nike

我的问题很简单。Pig (Hadoop) 可以处理 ebcdic 文件吗?我有一些,我想在 Hadoop 平台中使用 Pig 来处理和处理它们。

目前我已保存文件并尝试按如下方式加载:

A = LOAD '/user/enrico/FilesForPigs/IRIS.txt' AS (f1,f2,f3);

它似乎有效,但是当我尝试输入:DUMP A;我收到一个错误。

编辑:

按照 Donald 的建议,我正在尝试创建一个 Java 程序来进行转换,特别是我正在尝试创建自己的 LOAD 函数。

其实我的代码有以下问题:

@Override
public InputFormat getInputFormat() {


return new TextInputFormat();
}

这是我找到的示例,但 TextInputFormat 不适合我的情况。你知道我该如何解决吗?

谢谢

最佳答案

不,默认的存储机制假定数据是 ASCII,由制表符分隔。您可以使用 PigStorage(',') 将分隔符更改为逗号之类的内容。

你有两个选择:

  • 将数据从 ebcdic 转换为某种 CSV 格式(如果数据量不是问题,您可以使用单线程程序执行此操作,如果数据量有问题,则可以使用 MapReduce 作业执行此操作)
  • 编写自定义 ebcdic 加载函数。你可以看到如何做到这一点 here .

也许其他人已经实现了这个,但在快速谷歌搜索后我没有看到任何东西。

关于hadoop - Pig 可以处理 ebcdic 格式文件吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24869989/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com