python - 如何使用 luigi 将输出写入 orc 格式的分区表？-6ren

python - 如何使用 luigi 将输出写入 orc 格式的分区表？

转载作者：可可西里更新时间：2023-11-01 16:37:30

25

4

假设我们有这样的工作:

class MRjob(JobTask):
  def output(self):
    return ...

  def requires(self):
    return ...

  def mapper(self, line):
    # some line process
    yield key, (...information, stored in hashable type...)

  def reducer(self,key,values):
    # some reduce logic... for example this
    unique = set(values)
    for elem in unique:
      yield key, elem[0], elem[1]

我应该在输出方法中做什么才能将数据插入现有的表分区(而且表是以orc格式存储的)？我想跳过将数据转换为 orc 的过程，因此我尝试

return HivePartitionTarget(self.insert_table, database=self.database_name, partition=partition)

但这没有用。我还发现 luigi 试图将输出传递给某个文件。使用 HivePartitionTarget 时，luigi 会返回类似“对象没有写入属性”的错误，因此我的假设是 HivePartitionTarget 只是不包含写入方法。因此，我认为我做错了什么，应该使用另一种方法，但没有找到一个例子

最佳答案

我不太清楚如何在 luigi 中实现这一点。我可能建议的是使用简单的方法以普通分隔格式(例如逗号分隔格式)编写 luigi 脚本的输出。

在此之上创建一个外部配置单元表:

CREATE EXTERNAL TABLE temp_table(
<col_name> <col_type>, 
<col_name2> <col_type>
.......
....... 
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘,’
LOCATION ‘ /hive/data/weatherext’;

使用简单的 hive insert-into-select 查询将数据插入原始表(具有 ORC 格式数据)。

INSERT INTO TABLE target_table
PARTITION( xxx )
SELECT 
COL_NAME1,
COL_NAME2
FROM temp_table;

您的目标表将包含 ORC 格式的数据，而 Hive 将为您处理转换。

详细语法引用 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-InsertingdataintoHiveTablesfromqueries

关于python - 如何使用 luigi 将输出写入 orc 格式的分区表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49029913/

25

4

0

文章推荐： sql - ETL 管道的数据整合

文章推荐： http - 有没有办法在回复中请求没有文件大小的远程文件？

文章推荐： c++ - opencv 3.0 中缺少 contrib 模块？

hadoop - 如何将分区 Hive ORC 表中的多个 ORC 文件(属于每个分区)组合成一个大的 ORC 文件
我在 Hive 中有一个分区的 ORC 表。在用所有可能的分区加载表后，我得到了 HDFS - 多个 ORC 文件，即 HDFS 上的每个分区目录都有一个 ORC 文件。对于某些用例，我需要将每个分区
java - 如何将小型 ORC 文件合并或合并为大型 ORC 文件？
关于 SO 和网络的大多数问题/答案都讨论了使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件，但是，我的 ORC 文件是按天分隔的日志文件，我需要将它们分开。我只想每天“汇总”ORC 文件
hadoop - Parquet vs ORC vs ORC with Snappy
我正在对 Hive 可用的存储格式进行一些测试，并使用 Parquet 和 ORC 作为主要选项。我将 ORC 一次包含在默认压缩中，一次包含在 Snappy 中。我读过许多文档，指出 Parque
java - 使用 orc-tools 将 JSON 转换为 ORC
我正在尝试使用上面提到的 orc 工具 jar 来转换 JSON 文件 https://orc.apache.org/docs/tools.html#java-orc-tools 我已将其导入到我的
hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？
我创建了一个存储为 ORC 的托管配置单元表，当加载 .txt 文件时它工作正常，但是我无法将 ORC 文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将
hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct，收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
当我读取 orcfile 并将数据写入 orcfile 时，出现以下错误: expected org.apache.hadoop.hive.ql.io.orc.OrcStruct, received
hadoop - ORC 架构演变
在浏览了一个示例 ORC 文件后，我了解到 ORC 文件格式不存储任何列信息，实际上所有列名都会被替换为 _c0 到 _cn，在这种情况下如何为 ORC 实现适当的架构演变表？最佳答案 ORC 格式
hadoop - ORC 指定序列化器不工作
我在 HDFS 中有一些数据是使用 Sqoop 导入的。数据以 ORC 格式导入，压缩为 Snappy。我正在尝试使用以下 DDL 语句在此数据之上创建一个表。但是，我收到以下错误。 FAILED:
scala - 检查文件是否为 ORC 文件
我有一个程序，其输入应为 ORC 文件格式。我希望能够检查提供的输入是否实际上是一个 ORC 文件。仅检查扩展名是不够的，因为用户可以省略扩展名。例如，对于 Parquet，我们可以 check如
hadoop - 设置 ORC 文件名
我目前正在实现对 HDFS 和 Hive 表的监控数据的 ETL (Talend)。我现在面临重复的问题。更详细地说，如果我们需要使用相同的输入运行一个 ETL 作业 2 次，我们最终会在 Hive
Hive 将 ORC 文件分割成小部分
create table n_data(MARKET string,CATEGORY string,D map,monthid int,value DOUBLE) STORED AS ORC
hadoop - 将文本加载到 Orc 文件
如何将文本文件加载到 Hive orc 外部表中？ create table MyDB.TEST ( Col1 String, Col2 String, Col3 String, Col4 S
hadoop - 作业无法从一个 ORC 文件读取并将一个子集写入另一个文件
在 HDP 2.3 for Windows 中的 Apache Pig 交互式 shell 中工作，我在 /path/to/file 中有一个现有的 ORC 文件。如果我加载然后保存使用: a = L
hadoop - 是否会在 ORC 文件中读取所有嵌套列？
假设我有一个像这样的 Hive 查询: CREATE TABLE student (key string, name string, course struct) STORED AS ORC; 由于
hadoop - 如何更新分桶式和 orc 格式的配置单元表中的多列
我可以更新单个列，但不能更新从另一个表引用的多个列。我启用了所有 ACID 属性以支持配置单元 (1.2.1) 表更新。我有两个表，表 1: 架构: create table table1(em
Java - 空 orc 文件
我正在尝试使用 orc-core 编写 orc 文件稍后由 hive 读取。正在写入的文件具有正确的行数，但列中没有内容。我可以看到，两者都试图在配置单元中使用选择查询读取文件，并且都使用 hive
hadoop - 使用 ORC 文件格式有什么缺点？
我读过很多关于 ORC 文件格式在压缩和快速查询方面有多么出色的帖子，特别是与 Parquet 格式相比。我了解 ORC 如何跨行组拆分数据，将它们分割为列组，以及它如何使用元数据和内部统计信息来跳过
java - 如何根据大小拆分 ORC 文件？
我有一个要求，我想将 5GB ORC 文件拆分为 5 个文件，每个文件大小为 1GB。ORC 文件是可拆分的。这是否意味着我们只能逐条分割文件？但我有要求根据大小拆分 orc 文件。例如，将 5GB
hadoop - 格式错误的 ORC 文件错误
将 Hive 外部表从 RC 升级为 ORC 格式并在其上运行 MSCK REPAIR TABLE 时，当我从表中选择全部时，出现以下错误 - Failed with exception java.i
hadoop - 附加到 ORC 文件
我是大数据和相关技术的新手，所以我不确定我们是否可以将数据附加到现有的 ORC 文件中。我正在使用 Java API 编写 ORC 文件当我关闭 Writer 时，我无法再次打开文件来写入新内容，基本

首页

博学

6Ren·AI

商城

python - 如何使用 luigi 将输出写入 orc 格式的分区表？