gpt4 book ai didi

parquet - 有没有办法从没有 .avsc 文件且没有 impala/hive 的 xml/json 输入文件创建 Parquet 文件?

转载 作者:行者123 更新时间:2023-12-05 06:42:39 26 4
gpt4 key购买 nike

我想将我的输入文件 (xml/json) 转换为 parquet。我已经有了一个适用于 spark 的解决方案,并创建了所需的 Parquet 文件。

但是,由于其他客户要求,我可能需要创建一个不涉及 hadoop 生态系统的解决方案,例如 hive、impala、spark 或 mapreduce。

并且,Kite SDK 正在使用 .avsc 文件创建 Parquet 数据,如果我错了,请纠正我。我可能是近视,但看起来它需要 avro 模式文件。那么,是否有任何库可以从自解释文件(如 xml 或 json)创建 parquet 文件?

注意:如果感觉这不是一个合适的方法,我想了解它不是推荐方法的原因,这样我就可以获得一些知识或了解我可能需要的领域错过了。

最佳答案

我刚刚使用 python 发布了一个。

https://github.com/blackrock/xml_to_parquet

将一个或多个 XML 文件转换为 Apache Parquet 格式。只需要一个 XSD 和 XML 文件即可开始。

它需要一个 XSD 架构文件来将 XML 文件中的所有内容转换为具有与 XML 路径匹配的嵌套数据结构的等效 Parquet 文件。

Convert a small XML file to a Parquet file
python xml_to_parquet.py -x PurchaseOrder.xsd PurchaseOrder.xml

INFO - 2021-01-21 12:32:38 - Parsing XML Files..
INFO - 2021-01-21 12:32:38 - Processing 1 files
DEBUG - 2021-01-21 12:32:38 - Generating schema from PurchaseOrder.xsd
DEBUG - 2021-01-21 12:32:38 - Parsing PurchaseOrder.xml
DEBUG - 2021-01-21 12:32:38 - Saving to file PurchaseOrder.xml.parquet
DEBUG - 2021-01-21 12:32:38 - Completed PurchaseOrder.xml

关于parquet - 有没有办法从没有 .avsc 文件且没有 impala/hive 的 xml/json 输入文件创建 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36289548/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com