python - 如何读取Python Pandas本地存储的ORC文件？-6ren

python - 如何读取Python Pandas本地存储的ORC文件？

转载作者：行者123 更新时间：2023-12-01 23:48:29

30

4

我可以将 ORC 文件视为类似于 CSV 文件，其中列标题和行标签包含数据吗？如果是这样，我可以以某种方式将其读入一个简单的 pandas 数据框吗？我对 Hadoop 或 Spark 等工具不太熟悉，但是为了在 Python 中查看本地 ORC 文件的内容，是否有必要了解它们？

文件名是someFile.snappy.orc

我可以在网上看到 spark.read.orc('someFile.snappy.orc') 有效，但即使在 import pyspark 之后，它也会抛出错误。

最佳答案

我还没有找到任何好的选择，有一些死项目试图包装java阅读器。但是，pyarrow 确实有一个 ORC 阅读器，不需要您使用 pyspark。虽然有一点限制，但它确实有效。

import pandas as pd
import pyarrow.orc as orc

with open(filename) as file:
    data = orc.ORCFile(file)
    df = data.read().to_pandas()

关于python - 如何读取Python Pandas本地存储的ORC文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52889647/

30

4

0

文章推荐： unicode - Flex(词法分析器)对 unicode 的支持

文章推荐： c - 运行 GCC 预处理器非 C 文件

文章推荐： Java 从另一个具有依赖关系的 Jar 创建类实例

hadoop - 如何将分区 Hive ORC 表中的多个 ORC 文件(属于每个分区)组合成一个大的 ORC 文件
我在 Hive 中有一个分区的 ORC 表。在用所有可能的分区加载表后，我得到了 HDFS - 多个 ORC 文件，即 HDFS 上的每个分区目录都有一个 ORC 文件。对于某些用例，我需要将每个分区
java - 如何将小型 ORC 文件合并或合并为大型 ORC 文件？
关于 SO 和网络的大多数问题/答案都讨论了使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件，但是，我的 ORC 文件是按天分隔的日志文件，我需要将它们分开。我只想每天“汇总”ORC 文件
hadoop - Parquet vs ORC vs ORC with Snappy
我正在对 Hive 可用的存储格式进行一些测试，并使用 Parquet 和 ORC 作为主要选项。我将 ORC 一次包含在默认压缩中，一次包含在 Snappy 中。我读过许多文档，指出 Parque
java - 使用 orc-tools 将 JSON 转换为 ORC
我正在尝试使用上面提到的 orc 工具 jar 来转换 JSON 文件 https://orc.apache.org/docs/tools.html#java-orc-tools 我已将其导入到我的
hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？
我创建了一个存储为 ORC 的托管配置单元表，当加载 .txt 文件时它工作正常，但是我无法将 ORC 文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将
hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct，收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
当我读取 orcfile 并将数据写入 orcfile 时，出现以下错误: expected org.apache.hadoop.hive.ql.io.orc.OrcStruct, received
hadoop - ORC 架构演变
在浏览了一个示例 ORC 文件后，我了解到 ORC 文件格式不存储任何列信息，实际上所有列名都会被替换为 _c0 到 _cn，在这种情况下如何为 ORC 实现适当的架构演变表？最佳答案 ORC 格式
hadoop - ORC 指定序列化器不工作
我在 HDFS 中有一些数据是使用 Sqoop 导入的。数据以 ORC 格式导入，压缩为 Snappy。我正在尝试使用以下 DDL 语句在此数据之上创建一个表。但是，我收到以下错误。 FAILED:
scala - 检查文件是否为 ORC 文件
我有一个程序，其输入应为 ORC 文件格式。我希望能够检查提供的输入是否实际上是一个 ORC 文件。仅检查扩展名是不够的，因为用户可以省略扩展名。例如，对于 Parquet，我们可以 check如
hadoop - 设置 ORC 文件名
我目前正在实现对 HDFS 和 Hive 表的监控数据的 ETL (Talend)。我现在面临重复的问题。更详细地说，如果我们需要使用相同的输入运行一个 ETL 作业 2 次，我们最终会在 Hive
Hive 将 ORC 文件分割成小部分
create table n_data(MARKET string,CATEGORY string,D map,monthid int,value DOUBLE) STORED AS ORC
hadoop - 将文本加载到 Orc 文件
如何将文本文件加载到 Hive orc 外部表中？ create table MyDB.TEST ( Col1 String, Col2 String, Col3 String, Col4 S
hadoop - 作业无法从一个 ORC 文件读取并将一个子集写入另一个文件
在 HDP 2.3 for Windows 中的 Apache Pig 交互式 shell 中工作，我在 /path/to/file 中有一个现有的 ORC 文件。如果我加载然后保存使用: a = L
hadoop - 是否会在 ORC 文件中读取所有嵌套列？
假设我有一个像这样的 Hive 查询: CREATE TABLE student (key string, name string, course struct) STORED AS ORC; 由于
hadoop - 如何更新分桶式和 orc 格式的配置单元表中的多列
我可以更新单个列，但不能更新从另一个表引用的多个列。我启用了所有 ACID 属性以支持配置单元 (1.2.1) 表更新。我有两个表，表 1: 架构: create table table1(em
Java - 空 orc 文件
我正在尝试使用 orc-core 编写 orc 文件稍后由 hive 读取。正在写入的文件具有正确的行数，但列中没有内容。我可以看到，两者都试图在配置单元中使用选择查询读取文件，并且都使用 hive
hadoop - 使用 ORC 文件格式有什么缺点？
我读过很多关于 ORC 文件格式在压缩和快速查询方面有多么出色的帖子，特别是与 Parquet 格式相比。我了解 ORC 如何跨行组拆分数据，将它们分割为列组，以及它如何使用元数据和内部统计信息来跳过
java - 如何根据大小拆分 ORC 文件？
我有一个要求，我想将 5GB ORC 文件拆分为 5 个文件，每个文件大小为 1GB。ORC 文件是可拆分的。这是否意味着我们只能逐条分割文件？但我有要求根据大小拆分 orc 文件。例如，将 5GB
hadoop - 格式错误的 ORC 文件错误
将 Hive 外部表从 RC 升级为 ORC 格式并在其上运行 MSCK REPAIR TABLE 时，当我从表中选择全部时，出现以下错误 - Failed with exception java.i
hadoop - 附加到 ORC 文件
我是大数据和相关技术的新手，所以我不确定我们是否可以将数据附加到现有的 ORC 文件中。我正在使用 Java API 编写 ORC 文件当我关闭 Writer 时，我无法再次打开文件来写入新内容，基本

首页

博学

6Ren·AI

商城

python - 如何读取Python Pandas本地存储的ORC文件？