parquet - 有没有办法从没有 .avsc 文件且没有 impala/hive 的 xml/json 输入文件创建 Parquet 文件？-6ren

parquet - 有没有办法从没有 .avsc 文件且没有 impala/hive 的 xml/json 输入文件创建 Parquet 文件？

转载作者：行者123 更新时间：2023-12-05 06:42:39

26

4

我想将我的输入文件 (xml/json) 转换为 parquet。我已经有了一个适用于 spark 的解决方案，并创建了所需的 Parquet 文件。

但是，由于其他客户要求，我可能需要创建一个不涉及 hadoop 生态系统的解决方案，例如 hive、impala、spark 或 mapreduce。

并且，Kite SDK 正在使用 .avsc 文件创建 Parquet 数据，如果我错了，请纠正我。我可能是近视，但看起来它需要 avro 模式文件。那么，是否有任何库可以从自解释文件(如 xml 或 json)创建 parquet 文件？

注意:如果感觉这不是一个合适的方法，我想了解它不是推荐方法的原因，这样我就可以获得一些知识或了解我可能需要的领域错过了。

最佳答案

我刚刚使用 python 发布了一个。

https://github.com/blackrock/xml_to_parquet

将一个或多个 XML 文件转换为 Apache Parquet 格式。只需要一个 XSD 和 XML 文件即可开始。

它需要一个 XSD 架构文件来将 XML 文件中的所有内容转换为具有与 XML 路径匹配的嵌套数据结构的等效 Parquet 文件。

Convert a small XML file to a Parquet file
python xml_to_parquet.py -x PurchaseOrder.xsd PurchaseOrder.xml

INFO - 2021-01-21 12:32:38 - Parsing XML Files..
INFO - 2021-01-21 12:32:38 - Processing 1 files
DEBUG - 2021-01-21 12:32:38 - Generating schema from PurchaseOrder.xsd
DEBUG - 2021-01-21 12:32:38 - Parsing PurchaseOrder.xml
DEBUG - 2021-01-21 12:32:38 - Saving to file PurchaseOrder.xml.parquet
DEBUG - 2021-01-21 12:32:38 - Completed PurchaseOrder.xml

关于parquet - 有没有办法从没有 .avsc 文件且没有 impala/hive 的 xml/json 输入文件创建 Parquet 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36289548/

26

4

0

文章推荐： vb.net - VB.net 的 EnableCors

文章推荐： python - 用 pandas 读取 SAS 文件

文章推荐： pdf - Pandoc:创建表格，Markdown 到 PDF

impala - Impala 中无效元数据和刷新命令之间的区别？
我看到这个链接影响 Impala version 1.1 : Since Impala 1.1, REFRESH statement only works for existing tables. F
impala - 如何访问 Impala 解析器
Impala 是否重用 hive SQL 解析器？我正在尝试编写一个自定义 Java 代码来检查我的应用程序中的查询正确性。我正在寻找一个可以使用 sql 查询的 api，并让我知道它在语法上对于
impala - 使用 Impala JDBC 驱动程序指定非默认数据库
我正在使用 Impala JDBC 驱动程序(或者我猜它实际上是 Hive Server 2 JDBC 驱动程序)。我在另一个数据库中创建了一个 View ——我们称它为“store55”。假设我的
impala - 如果无效元数据可以做同样的事情，为什么需要在 Impala 中刷新
如果我创建一个表，使用 Hive，在其中插入记录并首先在 Impala 中反射(reflect)同一个表，我必须运行 Invalidate Metadata，它反射(reflect)了执行程序上的元数
impala - 列出需要失效/刷新的 Impala 表
我如何以编程方式找到所有需要 INVALIDATE METADATA 语句的 Impala 表(因为它们是在 Hive 中创建的，但 Impala 尚不知道)或 REFRESH(因为列已添加、已添加数
impala - impala 的 view 或 with 子句是否只计算一次并在查询中多次使用？
with core as ( select t1.a, t1.b, t2.c from test_1 t1 join test_2 t2 on t1.a = t
impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么？
对于Presto和Impala的区别，有没有专家能从这些角度给出一些简洁的回答？基础架构设计 SQL 合规性真实世界的延迟任何 SPOF 或容错功能结构化和非结构化数据使用场景表现最佳答案
cloudera - 如何使用 impala-shell 或其他方式复制 cloudera impala 表？
当我显示表格时，我在 Impala 中看到一个表格“测试”；我想复制“test”表，使其完全相同，但命名为“test_copy”。我可以执行 impala 查询来执行此操作吗？如果没有，我该怎么做？
hadoop - Impala:使用load inpath加载数据时出错:AccessControlException:粘滞位拒绝了权限:user = impala
所有，我是新手，很少尝试用例。我在hdfs中有一个文件，想加载到impala表中。 -在hdfs上的文件位置:hdfs:// xxx / user / hive / warehouse / imp
r - 在没有 Impala JDBC 驱动程序的情况下从 R 连接到 Impala
由于未公开的原因，我的 Impala 没有安装 JDBC 驱动程序。这使得 connection from R to Impala具有挑战性的。我能够通过 Putty 连接(和查询)到 Impala
hadoop - 如果在 impala statestore 关闭时执行 DDL，为什么 Impala 查询会失败？
在 impala 的官方文档中 here , statestore 组件有一条语句: If you issue a DDL statement while the statestore is down
hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数？
Impala 确实支持 UDFs written in C++ or Java ，但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容
hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？
我正在处理概念验证任务。任务是使用 Hadoop 技术实现我们产品的一项功能。功能非常简单，我们有一个 UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到 Ora
macos - 在 mac os x 上安装 cloudera impala shell 并连接到 impala 集群
我们在产品上有 impala 服务器，我需要从本地 macbook w/mac os x (10.8) 使用 impala shell 连接到它。我下载了Impala-cdh5.1.0-releas
hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果
我有两个 Java 中的 Hive UDF，它们可以工作在 Hive 中非常好。这两个功能是互补的。 String myUDF(BigInt) BigInt myUDFReverso(String)
impala - 如何检查Impala表中是否存在列？
我在 Impala 中创建了一个外部表。我正在编写一个 shell 脚本，用于检查该表中是否存在特定的列。我们可以使用以下查询在 MySql 中执行此操作。 SELECT * FROM inform
impala - impala是否在查询后缓存一些数据
我是 Impala 的新手，我在 Impala 上做了一些测试用例。当我第二次调用时，我发现类似的 SQL 快得多。例如: table1 = 4B 行 table2 = 5000 万行第一次查询:
cloudera - Impala 数据局部性
我对 impala 中的数据局部性有疑问，假设我有 10 个数据节点的集群(每个数据节点上都有 impalad)，如果我在 impala 中执行查询 SELECT * FROM big_table w
impala - 如何判断一个Impala对象的名字对应一个 View
Impala 中有没有一种方法可以确定 SHOW TABLES 返回的对象名称是否存在？对应于表或 View ，因为: 该语句只返回对象名称，不返回类型 SHOW CREATE VIEW只是 SHOW
hive - Impala:像查询一样显示表
我正在使用 Impala 并使用如下所示的某种模式从数据库中获取表列表。假设我有一个数据库 bank , 该数据库下的表如下所示。 cust_profile cust_quarter1_transa

首页

博学

6Ren·AI

商城

parquet - 有没有办法从没有 .avsc 文件且没有 impala/hive 的 xml/json 输入文件创建 Parquet 文件？