gpt4 book ai didi

hadoop - EBCDIC 到包含 COMP 类型的 ASCII

转载 作者:可可西里 更新时间:2023-11-01 14:48:43 25 4
gpt4 key购买 nike

我见过很多工具,如 syncsort、informatica 等,它们的效率足以将 EBCDIC 大型机文件转换为 ASCII。由于我们公司规模较小,不想投资任何工具,因此我面临将 EBCDIC 大型机文件转换为 ASCII 的挑战。上游是大型机,我正在将整个数据迁移到 hdfs,但由于 hdfs 的效率不足以处理大型机,我被要求convert with Spark/java rode 例程来转换这些大型机 EBCDIC 文件。我知道当文件被导出时,文件被转换为 ASCII 但压缩十进制,COMP/COMP3 没有被转换。我需要编写一个逻辑将这些大型机 EBCDIC 部分转换的文件转换为 ASCII,以便我们可以在 hadoop 中进行进一步处理。因为我是这个网站的新手,甚至不能添加我的示例 ebcdic 文件。请您将以下内容视为包含 ascii 和垃圾字符的示例文件内容下面包含一些在工资字段之后的垃圾,即 Dept 字段,它具有 COMP 数据类型..下面是 emp.txt 文件

101GANESH 10000?
102RAMESH 20000€
103NAGESH 40000 欧元

下面是empcopybook

   01 EMPLOYEE-DETAILS.
05 EMP-ID PIC 9(03).
05 EMP-NAME PIC X(10).
05 EMP-SAL PIC 9(05).
05 DEPT PIC 9(3) COMP-3.

最佳答案

Java 中有一个库可以与 spark 一起使用,称为 JRecord,用于将 EBCDIC 的二进制文件转换为 ASCII。

你可以找到这个人的代码here

这可以通过函数 newAPIHadoopFile 与 Scala 集成以在 spark 中运行它。此代码是 Hadoop 编码,但可以与 spark 一起正常工作。

关于hadoop - EBCDIC 到包含 COMP 类型的 ASCII,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38937768/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com