hadoop - EBCDIC 到包含 COMP 类型的 ASCII-6ren

hadoop - EBCDIC 到包含 COMP 类型的 ASCII

转载作者：可可西里更新时间：2023-11-01 14:48:43

25

4

我见过很多工具，如 syncsort、informatica 等，它们的效率足以将 EBCDIC 大型机文件转换为 ASCII。由于我们公司规模较小，不想投资任何工具，因此我面临将 EBCDIC 大型机文件转换为 ASCII 的挑战。上游是大型机，我正在将整个数据迁移到 hdfs，但由于 hdfs 的效率不足以处理大型机，我被要求convert with Spark/java rode 例程来转换这些大型机 EBCDIC 文件。我知道当文件被导出时，文件被转换为 ASCII 但压缩十进制，COMP/COMP3 没有被转换。我需要编写一个逻辑将这些大型机 EBCDIC 部分转换的文件转换为 ASCII，以便我们可以在 hadoop 中进行进一步处理。因为我是这个网站的新手，甚至不能添加我的示例 ebcdic 文件。请您将以下内容视为包含 ascii 和垃圾字符的示例文件内容下面包含一些在工资字段之后的垃圾，即 Dept 字段，它具有 COMP 数据类型..下面是 emp.txt 文件

101GANESH 10000?
102RAMESH 20000€
103NAGESH 40000 欧元

下面是empcopybook

   01 EMPLOYEE-DETAILS.
     05  EMP-ID       PIC 9(03).
     05  EMP-NAME     PIC X(10).
     05  EMP-SAL      PIC 9(05).
     05  DEPT         PIC 9(3) COMP-3.

最佳答案

Java 中有一个库可以与 spark 一起使用，称为 JRecord，用于将 EBCDIC 的二进制文件转换为 ASCII。

你可以找到这个人的代码here

这可以通过函数 newAPIHadoopFile 与 Scala 集成以在 spark 中运行它。此代码是 Hadoop 编码，但可以与 spark 一起正常工作。

关于hadoop - EBCDIC 到包含 COMP 类型的 ASCII，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38937768/

25

4

0

文章推荐： hadoop - 使用直线启动配置单元时出现 OutOfMemoryError

文章推荐： javascript - 让 Vim 正确高亮脚本类型 ="text/html"

文章推荐： javascript - 在同一个类中添加值并返回总和

java - Java 程序将 EBCDIC 转换为 ASCII 的示例 EBCDIC 文件
我正在尝试使用以下代码将 EBCDIC 文件转换为 ASCII: InputStreamReader rdr = new InputStreamReader(new FileInputStream()
java - 十六进制转换为 EBCDIC
我有一个 GUI，我尝试将 EBCDIC 字符串转换为十六进制，但它不起作用:/ ebcdichex.addActionListener(new ActionListener() {
python - 解码 Ebcdic
我正在传递 ebcdic 编码的数据。像这样的东西: s = u'@@@@@@@@@@@@@@@@@@@ÂÖÉâÅ@ÉÄ' 尝试 .decode('cp500') 是错误的，但正确的方法是什么？如果我
sql - DB2 EBCDIC 值函数
如何修改以下 SQL 以返回所选列的第一个字符的 EBCDIC(或者应该是 ASCI？)值>？ select substr(PLAN_SLD_CHNL_CD,1,1) from GG60.SUSP
sshfs EBCDIC 转 ASCII
我想要做的是能够通过本地PC上的USS通过sshfs挂载主机上的一些文件。我可以做到这一点，但 sshfs 不能直接完成从 EBCDIC 到 ascii/unicode 的转换。有没有我可以设置的标志
java - 打印包含 EBCDIC 值的字节数组未给出预期值
我创建了一个字符串，并使用 EBCDIC 编码转换了一个字节数组。当我打印数组时，H 的值与 EBCDIC 图表中发现的值不同。预期输出 “H”的 EBCDIC 值 --> 200，根据链接 EBC
groovy - EBCDIC 代码页不转换小写 'a'
我正在尝试使用 IBM 代码页将字符串从 ASCII 转换为 EBCDIC。除了转换为不可打印字符的小写字母“a”外，转换是正确的。这是一段在 Windows 7 中运行的 groovy 脚本，它说
java - 需要帮助将 EBCDIC 转换为十六进制
我正在编写一个 Hive UDF 将 EBCDIC 字符转换为十六进制。Hive 表中存在 Ebcdic 字符。目前我可以对其进行转换，但转换时会忽略一些字符。示例: 这是存储在表中的 EBCDIC
python - 读取大型机 EBCDIC 文件
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于 Stack Overflow 来说是
EBCDIC 编码中字符串的 Java 比较器
我遇到了一个需求，我需要将一个字符串转换为 EBCDIC 编码，然后对其进行排序。我们需要使用 EBCDIC 对其进行排序，因为该字符串必须进入大型机。我要排序的字符串将只有大写字母和整数。我在谷歌
C# 使用压缩小数编码 EBCDIC 中的文件
我必须为外部实体准备一个文件，该实体使用带有 COBOL 的 IBM 大型机，并且要求文件以 EBCDIC 编码。我正在用 C# 创建文件。我想这是一个由两部分组成的问题...首先，下面的代码是否足以
.net - 如何使用非标准代码页读取 EBCDIC 数据，而不是弄乱数字？
这是老手(er)的一个:-) 我正在从大型机 DB2 表中读取二进制转储。该表具有 varchar、char、smallint、integer 和 float 列。有趣的是，DB2 使用了代码页 42
c# - StreamReader 和 EBCDIC : Why? 的奇怪行为
背景:我必须编写一个应用程序，该应用程序采用设计不佳的 EBCDIC 文件，其中包含使用 ASCII 行终止符的二进制数据，有时二进制数据恰好包含 ASCII CRLF，这会导致行分割不正确。我需要采
c - EBCDIC 到 ASCII 转换背后的基本原理是什么？
我想了解这种转换到底是如何发生的。 http://www8.cs.umu.se/~isak/Snippets/a2e.c /* ** ASCII EBCDIC conversion functio
java - UTF 到 EBCDIC 的转换是无损的吗？
我们有一个通过 MQ 与外部通信的进程。外部系统在大型机 maching (IBM z/OS) 上运行，而我们在 CentOS Linux 平台上运行我们的进程。到目前为止，我们从未遇到过任何问题。
java - ASCII 到 EBCDIC 字符编码
将 ASCII 字符串转换为 EBCDIC 时: System.out.println(new String("0810C220000082000000040000000000000005285230
c - EBCDIC 到 ASCII 无法正常工作
我必须处理来自大型机的文件。文件中有一些非拉丁文本。我必须处理一些无效字符的非拉丁字符。由于大型机以 EBCDIC 格式对数据进行编码，因此我必须将其转换为 ASCII 才能进行验证。我用了this
c - 用于写入 EBCDIC 字符数组的 fputs
如果我有一个 EBCDIC 格式的字符数组，我想将该数组保存到一个文件中。我正在考虑使用 fputs 输出字符数组，而无需先将其转换为另一种格式。问题) 使用 fputs 编写 EBCDIC 是否合
python - HexString 到打包的 EBCDIC 字符串
我需要将“767f440128e1a00a”十六进制数据转换为打包的 EBCDIC 字符串。我希望所有 result 结果都变成一个字符串，但 python 给出 Unicode 错误 Unicode
hadoop - Pig 可以处理 ebcdic 格式文件吗？
我的问题很简单。Pig (Hadoop) 可以处理 ebcdic 文件吗？我有一些，我想在 Hadoop 平台中使用 Pig 来处理和处理它们。目前我已保存文件并尝试按如下方式加载: A = LOA

首页

博学

6Ren·AI

商城

hadoop - EBCDIC 到包含 COMP 类型的 ASCII