java - 使用 orc-tools 将 JSON 转换为 ORC-6ren

java - 使用 orc-tools 将 JSON 转换为 ORC

转载作者：行者123 更新时间：2023-11-30 06:45:55

43

4

我正在尝试使用上面提到的 orc 工具 jar 来转换 JSON 文件

https://orc.apache.org/docs/tools.html#java-orc-tools

我已将其导入到我的 pom.xml

<dependency>
    <groupId>org.apache.orc</groupId>
    <artifactId>orc-tools</artifactId>
    <version>1.3.1</version>
</dependency>

但是，导入后，我无法查看/导入用于从 JSON 文件推断架构的类 org.apache.orc.tools.json.JsonSchemaFinder。

使用上述类的示例可以在此提交中看到。 https://github.com/apache/orc/pull/95/commits/2ee0be7e60e7ca77f574110ba1babfa2a8e93f3f

我在这里使用了错误的 jar 吗？

最佳答案

计划在 ORC 1.4.0 版本中发布。当前版本 1.3.x 不包含这些功能。

您仍然可以获得 ORC git 分支，将 org.apache.orc.tools.convert 和 org.apache.orc.tools.json 复制到您的存储库并使用这些功能。或者，您也可以从 ORC 存储库制作一个 jar 并使用它。

public static void main(Configuration conf,
                       String[] args) throws IOException, ParseException {
 CommandLine opts = parseOptions(args);
 TypeDescription schema;
 if (opts.hasOption('s')) {
   schema = TypeDescription.fromString(opts.getOptionValue('s'));
 } else {
   schema = computeSchema(opts.getArgs());
 }
 String outFilename = opts.hasOption('o')
     ? opts.getOptionValue('o') : "output.orc";
 Writer writer = OrcFile.createWriter(new Path(outFilename),
     OrcFile.writerOptions(conf).setSchema(schema));
 VectorizedRowBatch batch = schema.createRowBatch();
 for (String file: opts.getArgs()) {
   System.err.println("Processing " + file);
   RecordReader reader = new JsonReader(new Path(file), schema, conf);
   while (reader.nextBatch(batch)) {
     writer.addRowBatch(batch);
   }
   reader.close();
 }
 writer.close();
}

关于java - 使用 orc-tools 将 JSON 转换为 ORC，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43686347/

43

4

0

文章推荐： java - getOpenSessions() 给出空的 [ ] 值

文章推荐： java - 将 apollo 跟踪添加到 GraphQL Spring

文章推荐： java - 从 mongo 聚合获取 java 原语，无需新的输出类

hadoop - 如何将分区 Hive ORC 表中的多个 ORC 文件(属于每个分区)组合成一个大的 ORC 文件
我在 Hive 中有一个分区的 ORC 表。在用所有可能的分区加载表后，我得到了 HDFS - 多个 ORC 文件，即 HDFS 上的每个分区目录都有一个 ORC 文件。对于某些用例，我需要将每个分区
java - 如何将小型 ORC 文件合并或合并为大型 ORC 文件？
关于 SO 和网络的大多数问题/答案都讨论了使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件，但是，我的 ORC 文件是按天分隔的日志文件，我需要将它们分开。我只想每天“汇总”ORC 文件
hadoop - Parquet vs ORC vs ORC with Snappy
我正在对 Hive 可用的存储格式进行一些测试，并使用 Parquet 和 ORC 作为主要选项。我将 ORC 一次包含在默认压缩中，一次包含在 Snappy 中。我读过许多文档，指出 Parque
java - 使用 orc-tools 将 JSON 转换为 ORC
我正在尝试使用上面提到的 orc 工具 jar 来转换 JSON 文件 https://orc.apache.org/docs/tools.html#java-orc-tools 我已将其导入到我的
hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？
我创建了一个存储为 ORC 的托管配置单元表，当加载 .txt 文件时它工作正常，但是我无法将 ORC 文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将
hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct，收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
当我读取 orcfile 并将数据写入 orcfile 时，出现以下错误: expected org.apache.hadoop.hive.ql.io.orc.OrcStruct, received
hadoop - ORC 架构演变
在浏览了一个示例 ORC 文件后，我了解到 ORC 文件格式不存储任何列信息，实际上所有列名都会被替换为 _c0 到 _cn，在这种情况下如何为 ORC 实现适当的架构演变表？最佳答案 ORC 格式
hadoop - ORC 指定序列化器不工作
我在 HDFS 中有一些数据是使用 Sqoop 导入的。数据以 ORC 格式导入，压缩为 Snappy。我正在尝试使用以下 DDL 语句在此数据之上创建一个表。但是，我收到以下错误。 FAILED:
scala - 检查文件是否为 ORC 文件
我有一个程序，其输入应为 ORC 文件格式。我希望能够检查提供的输入是否实际上是一个 ORC 文件。仅检查扩展名是不够的，因为用户可以省略扩展名。例如，对于 Parquet，我们可以 check如
hadoop - 设置 ORC 文件名
我目前正在实现对 HDFS 和 Hive 表的监控数据的 ETL (Talend)。我现在面临重复的问题。更详细地说，如果我们需要使用相同的输入运行一个 ETL 作业 2 次，我们最终会在 Hive
Hive 将 ORC 文件分割成小部分
create table n_data(MARKET string,CATEGORY string,D map,monthid int,value DOUBLE) STORED AS ORC
hadoop - 将文本加载到 Orc 文件
如何将文本文件加载到 Hive orc 外部表中？ create table MyDB.TEST ( Col1 String, Col2 String, Col3 String, Col4 S
hadoop - 作业无法从一个 ORC 文件读取并将一个子集写入另一个文件
在 HDP 2.3 for Windows 中的 Apache Pig 交互式 shell 中工作，我在 /path/to/file 中有一个现有的 ORC 文件。如果我加载然后保存使用: a = L
hadoop - 是否会在 ORC 文件中读取所有嵌套列？
假设我有一个像这样的 Hive 查询: CREATE TABLE student (key string, name string, course struct) STORED AS ORC; 由于
hadoop - 如何更新分桶式和 orc 格式的配置单元表中的多列
我可以更新单个列，但不能更新从另一个表引用的多个列。我启用了所有 ACID 属性以支持配置单元 (1.2.1) 表更新。我有两个表，表 1: 架构: create table table1(em
Java - 空 orc 文件
我正在尝试使用 orc-core 编写 orc 文件稍后由 hive 读取。正在写入的文件具有正确的行数，但列中没有内容。我可以看到，两者都试图在配置单元中使用选择查询读取文件，并且都使用 hive
hadoop - 使用 ORC 文件格式有什么缺点？
我读过很多关于 ORC 文件格式在压缩和快速查询方面有多么出色的帖子，特别是与 Parquet 格式相比。我了解 ORC 如何跨行组拆分数据，将它们分割为列组，以及它如何使用元数据和内部统计信息来跳过
java - 如何根据大小拆分 ORC 文件？
我有一个要求，我想将 5GB ORC 文件拆分为 5 个文件，每个文件大小为 1GB。ORC 文件是可拆分的。这是否意味着我们只能逐条分割文件？但我有要求根据大小拆分 orc 文件。例如，将 5GB
hadoop - 格式错误的 ORC 文件错误
将 Hive 外部表从 RC 升级为 ORC 格式并在其上运行 MSCK REPAIR TABLE 时，当我从表中选择全部时，出现以下错误 - Failed with exception java.i
hadoop - 附加到 ORC 文件
我是大数据和相关技术的新手，所以我不确定我们是否可以将数据附加到现有的 ORC 文件中。我正在使用 Java API 编写 ORC 文件当我关闭 Writer 时，我无法再次打开文件来写入新内容，基本

首页

博学

6Ren·AI

商城

java - 使用 orc-tools 将 JSON 转换为 ORC