Hive 将 ORC 文件分割成小部分-6ren

Hive 将 ORC 文件分割成小部分

转载作者：行者123 更新时间：2023-12-02 16:44:58

25

4

create table n_data(MARKET string,CATEGORY string,D map<string,string>,monthid int,value  DOUBLE)
  STORED AS ORC
 ;

我将数据加载到其中(超过45000000行)，查看hive仓库

enter image description here

结果表由5个文件组成，大小为10MB-20MB，但dfs.block.size设置为128MB，存储小文件不是最佳选择，因为它使用了整个 block !

如何设置 HIVE 将文件分割为 128 MB？

编辑插入查询:

insert into n_data
select tmp.market,tmp.category,d,adTable.monthid,tmp.factperiod[adTable.monthid] as fact 
from (select market,category,d,factperiod,map_keys(factperiod) as month_arr  from n_src where market is not null) as tmp 
LATERAL VIEW explode(month_arr) adTable AS monthid

最佳答案

您必须为 hive 设置以下配置参数:

hive.merge.mapfiles = true
hive.merge.mapredfiles = true
hive.merge.tezfiles = true
hive.merge.smallfiles.avgsize = 16000000

我遇到了完全相同的问题，直到我发现 this source 。您可以尝试使用“set”命令在 hive session 中手动设置这些参数，如下所示:

set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=16000000;

如果您只是输入“set;”在配置单元 session 控制台中，您可以检查上述参数是否设置正确。测试后，我建议在 hive-site.xml 配置文件中或通过 Ambari 更改它们(如果您使用的是 Hortonworksdistribution)。干杯!

关于Hive 将 ORC 文件分割成小部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31317434/

25

4

0

文章推荐： haskell - 违反结合律的不正确 monad 的例子是什么？

文章推荐： javascript - 创建一个通过 JSON 进行迭代的 Javascript 函数

文章推荐： javascript - Ajax提交表单不会重新加载页面但不会发布

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

Hive 将 ORC 文件分割成小部分