hadoop - HIVE 中 ALTER TABLE 命令中的 CONCATENATE 如何工作-6ren

hadoop - HIVE 中 ALTER TABLE 命令中的 CONCATENATE 如何工作

转载作者：可可西里更新时间：2023-11-01 15:49:20

30

4

我想了解 HIVE 中的 ALTER TABLE CONCATENATE 究竟是如何工作的。

我看到了这个链接 How does Hive 'alter table <table name> concatenate' work?但我从这个链接得到的只是对于 ORC 文件，合并发生在 strip 级别。

我正在寻找有关 CONCATENATE 工作原理的详细说明。例如，我最初在 HDFS 中有 500 个小的 ORC 文件。我运行了 Hive ALTER TABLE CONCATENATE 并将文件合并为 27 个更大的文件。随后运行的 CONCATENATE 将文件数量减少到 16 个，最后我得到了两个大文件。(使用版本 Hive 0.12)所以我想了解

CONCATENATE 的具体工作原理是什么？它会查看现有文件的数量和大小吗？拼接后输出ORC文件的编号如何确定？
使用 Concatenate 是否存在任何已知问题？我们计划在维护窗口中每天运行一次连接
使用 CTAS 是连接的替代方法吗？哪个更好？请注意，我的要求是在不影响读取性能的情况下减少 ORC 文件(通过 Nifi 摄取)的数量

感谢任何帮助并提前致谢

最佳答案

可以使用以下两个值来控制串联文件的大小:

set mapreduce.input.fileinputformat.split.minsize=268435456;
set hive.exec.orc.default.block.size=268435456;

应根据您的 HDFS/MapR-FS block 大小设置这些值。

关于hadoop - HIVE 中 ALTER TABLE 命令中的 CONCATENATE 如何工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52170452/

30

4

0

文章推荐： c++ - 禁止在继承类中定义复制构造函数

文章推荐： c++ - 访问静态变量 C++ 时出现 LNK2001 错误

文章推荐： sql - “Hive” 多列的最大列值

sql-server-2005 - SQL Server 脚本 : ALTER PROCEDURE - Executing multiple ALTER PROCEDURE into one script without having to select each of the ALTER one after another
我知道这不是什么大问题，但还是让我觉得很痒。我有一个 SQL Server 2005 脚本来创建新的数据表、约束、更改一些表以添加列、更改过程以将表更改考虑在内等。一切正常，直到脚本遇到我的 AL
r - 获取包含 alter 的 alters 的边缘列表
我需要一个包含三列的数据框:i、j(改变)和 k(j 的改变)。我有一个邻接矩阵(下面的示例)。从那里我可以获得一个图形对象并提取边缘列表。我如何操作数据以获得类似于下面的 WANT 数据框的输出？
sql - 如何在 ALTER TABLE 后正确运行 ALTER VIEW
假设我有这个 SQL 语句: ALTER TABLE dbo.[tbl] ALTER COLUMN col1 varchar(300) ALTER TABLE dbo.[tbl] ALTER COLU
sql-server - ALTER TABLE ALTER COLUMN 会中断正在进行的数据库访问吗？
我在表中有一列，因此它不再是 NVARCHAR(256)，而是 NVARCHAR(MAX)。我知道执行此操作的命令 (ALTER TABLE ALTER COLUMN NVARCHAR(MAX))。我
sql-server - ALTER TABLE ALTER COLUMN 会中断正在进行的数据库访问吗？
我在表中有一列，因此它不再是 NVARCHAR(256)，而是 NVARCHAR(MAX)。我知道执行此操作的命令 (ALTER TABLE ALTER COLUMN NVARCHAR(MAX))。我
mysql - 不带 AFTER 的 ALTER TABLE 与带 AFTER 的 ALTER TABLE
假设我有这两个 ALTER TABLE: ALTER TABLE tableName ADD COLUMN colName INT(11) AFTER colName2 ALTER TABLE tab
c# - 对象 'PK_AspNetUserTokens' 依赖于列 'Name' 。 ALTER TABLE ALTER COLUMN Name 失败，因为一个或多个对象访问此列
我正在尝试扩展 IdentityUser 类。我添加了一个新类 ApplicationUser 并继承了 IdentityUser 类。迁移已成功添加，但在更新数据库时，出现错误“对象 'PK_Asp
用于 alter table alter columns IDENTITY(1,1) 的 sql server helper 存储过程或实用程序
我想将 sql server 2005 表中的列修改为 IDENTITY(1,1) 顺便说一句，该表是空的，要更改的列是主键。该列也是另外两个表的外键。谷歌搜索后我发现你不能使用Alter tab
javascript - 使用 Javascript 和 JQuery 改变 CSS 属性 : JQuery cannot alter properties that Javascript has already altered?
这是我要实现的目标:我在列表中有四个按钮，每个按钮都有白色背景和独特的彩色边框。单击一个按钮时，其背景颜色将与其边框颜色相同。单击第二个按钮时，第一个按钮恢复正常，第二个按钮的背景填充第二个按钮的边框
alter-table - 如何在clickhouse中添加一列
我在 clickhouse 有一张 table ，比如“my_table”，它有复制品(my_table_rep1，...)。我需要添加一个列，类型为 float64，默认值 (-1)。我该怎么做？
sql - ALTER TABLE语句冲突
alter FUNCTION [Kuri].[fnGetAge](@kuri_cust_Id int,@amt decimal) RETURNS SMALLINT AS BEGIN D
mysql添加约束(ALTER)如何将它们按顺序排列
我试图确保当我 mysqldump 数据库时约束在执行以下查询后按数字顺序排列。当我在没有 AFTER 的情况下进行转储(这不起作用)时，它显示 phppos_sales_ibfk_3 作为第一个约束
mysql - ALTER 查询不起作用
我有两个表:cleanup 和 uniqueEntries。它们都有一个自动递增的id作为主键。 uniqueEntries 的表结构来自 cleanup，如下所示: $sql = "CREATE T
mysql - ALTER 表并添加间隔
我有一个包含以下数据和结构的表: Date Analyst Start Time Stop Time 4/2/2018 Bill Smith 7:00
mysql - ALTER TABLE命令在MYSQL中不起作用
This question already has answers here: Error renaming a column in MySQL
MySQL ALTER 表多列键
是否可以更改表的多(复合)列键？示例表: CREATE TABLE `test_abc` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `
oracle alter session查询的Java准备语句参数
我尝试执行 oracle alter session 查询以更改语言设置，但失败并出现错误“ORA-01036:非法变量名称/编号”。 preparedStatement = connection.p
MySQL ALTER 列到表中的最后一个位置
我正在与一位客户合作，他希望大型数据库中的每个表的每条记录都有历史数据，并且为了美观，希望这些列位于每个表的末尾。例如: 表名主键数据列历史专栏所以我的问题是，是否有一个 SQL 命令可以将列
SQL Alter 触发器挂起
我正在尝试更改 SQL Server 2000 更新触发器，但它一直挂着、挂着、挂着。为什么会发生这种情况，我该怎么做才能解决这个问题？这是一个长触发器，这可能是为什么？触发代码较长，简化如下: A
mysql，alter column删除主键和auto_increment
我正在将我的 mysql 数据库表从 id (auto) 更改为 uid。 ALTER TABLE companies DROP PRIMARY KEY; ALTER TABLE companies

首页

博学

6Ren·AI

商城

hadoop - HIVE 中 ALTER TABLE 命令中的 CONCATENATE 如何工作