hadoop - 对大量倾斜数据集的 Hive 排序操作-6ren

hadoop - 对大量倾斜数据集的 Hive 排序操作

转载作者：可可西里更新时间：2023-11-01 14:55:22

31

4

我正在 Hortonworks 2.6.5 上处理一个大小约为 3 TB 的大型数据集，数据集的布局非常简单。

数据的层次结构如下-

-Country
   -Warehouse
      -Product
          -Product Type
              -Product Serial Id

我们在上述层次结构中拥有 30 个国家/地区的交易数据，每个国家/地区有 200 多个仓库，单个国家/地区美国贡献了整个数据集的 75% 左右。

问题:

1)对于每个仓库的上述数据集，我们有带有交易日期列(trans_dt)的交易数据，我需要使用Hive(1.1.2版本)对每个仓库内的trans_dt进行升序排序)映射减少。我在国家级别创建了一个分区，然后应用 DISTRIBUTE BY Warehouse SORT BY trans_dt ASC；排序大约需要 8 个小时才能完成，最后 6 个小时用于 Reducer 99% 的阶段。我在这个阶段看到了很多洗牌。

2) 我们对这个组合做了很多分组 - Country,Warehouse,Product,Product Type,Product Serial Id任何优化这个操作的建议都将非常有帮助。

3) 如何处理美国国家的倾斜数据集？

我们正在使用以下配置单元属性。

SET hive.exec.compress.intermediate=true;
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET hive.intermediate.compression.type=BLOCK;
SET hive.exec.compress.output=true;
SET mapreduce.output.fileoutputformat.compress=true;
SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET mapreduce.output.fileoutputformat.compress.type=BLOCK;
SET hive.auto.convert.join=true;
SET hive.auto.convert.join.noconditionaltask=true;
SET hive.auto.convert.join.noconditionaltask.size=10000000;
SET hive.groupby.skewindata=true;
SET hive.optimize.skewjoin.compiletime=true;
SET hive.optimize.skewjoin=true;
SET hive.optimize.bucketmapjoin=true;
SET hive.exec.parallel=true;
SET hive.cbo.enable=true;
SET hive.stats.autogather=true;
SET hive.compute.query.using.stats=true;
SET hive.stats.fetch.column.stats=true;
SET hive.stats.fetch.partition.stats=true;
SET hive.vectorized.execution.enabled=true;
SET hive.vectorized.execution.reduce.enabled=true;
SET hive.optimize.index.filter=true;
SET hive.optimize.ppd=true;
SET hive.mapjoin.smalltable.filesize=25000000;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions.pernode=1000;
SET mapreduce.reduce.memory.mb=10240;
SET mapreduce.reduce.java.opts=-Xmx9216m;
SET mapreduce.map.memory.mb=10240;
SET mapreduce.map.java.opts=-Xmx9216m;
SET mapreduce.task.io.sort.mb=1536;
SET hive.optimize.groupby=true;
SET hive.groupby.orderby.position.alias=true;
SET hive.multigroupby.singlereducer=true;
SET hive.merge.mapfiles=true;
SET hive.merge.smallfiles.avgsize=128000000;
SET hive.merge.size.per.task=268435456;
SET hive.map.aggr=true;
SET hive.optimize.distinct.rewrite=true;
SET mapreduce.map.speculative=false;
set hive.fetch.task.conversion = more;
set hive.fetch.task.aggr=true;
set hive.fetch.task.conversion.threshold=1024000000;

最佳答案

对于美国和非美国使用相同的查询但独立处理它们。

Select * from Table where Country = 'US'
UNION
Select * from Table where Country <> 'US'

或

您可以使用脚本处理它们，在该脚本中一次触发一个国家/地区的查询，从而减少需要在一个实例中处理的数据量。

INSERT INTO TABLE <AggregateTable>
SELECT * FROM <SourceTable>
  WHERE Country in ('${hiveconf:ProcessCountry}')

关于hadoop - 对大量倾斜数据集的 Hive 排序操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57310000/

31

4

0

文章推荐： C++ 通过 Const 引用传递并通过 Const 引用返回

文章推荐： HTML 5 CSS 3 @viewport 媒体查询

iPhone 倾斜 CALayer
我是初学者，我正在做一些练习来熟悉 CALayer ... 我只是想知道如何“倾斜”(或倾斜)CALayer 45° 角？谢谢。最佳答案 CALayers 有一个属性 affineTransfor
html - 倾斜/倾斜的表头
无法理解如何制作this trick或 this与CSS。我的意思是标题和标志。这条线不直。它们是倾斜的/倾斜的边界。能否请您举个例子或只是举例说明这是可行的？最佳答案看看https://jsfi
iPhone 图像拉伸(stretch)(倾斜)
如何倾斜图像？例如，每个角都有一个 CGPoint，其坐标为 - p1、p2、p3、p4。然后，我需要设置 - p4.x+=50，p4.y+=30。因此这个角 (p4) 应该在 2D 透视中拉伸(st
html - 使用css实现浮雕/倾斜/3d边框效果
我想弄清楚如何通过仅使用 css 来实现元素底部的跟随边框，并使其尽可能对跨浏览器友好示例代码，带有标准边框 .object { width: 200px; height: 45p
html - 倾斜 Bootstrap 导航列表项并保持链接直
我正在尝试使用 CSS transform 来倾斜 Bootstrap 导航 li，我可以做到这一点，但是当我尝试扭转内部链接上的倾斜时，li 倾斜也会反转回来。我不知道为什么。我试着做这里接受的答案
CSS only 2 条纹背景(倾斜)
这个问题在这里已经有了答案: CSS: Set a background color which is 50% of the width of the window (14 个答案) 关闭 7 年前
html - 倾斜 Div 上的导航栏
我已经创建了一个预定的 div 来与我的导航栏一起使用，但是它弄乱了网站的其余格式。导航栏位于右上角，倾斜的 div 位于其下方，但它弄乱了网页上的所有其他内容。我一直在尝试一切都无济于事。 http
CSS3 一侧边框剪切/变换/倾斜
你好，我想像这里的附图一样对步骤菜单进行风格化。我该如何风格化这个？主要问题是菜单右侧的边框。检查我的 JSFiddle URL https://jsfiddle.net/hcx1pv8x/ , 不
javascript - 没有平移副作用的 SVG 倾斜
我正在尝试使用 HTML5 在 javascript 中倾斜 svg 元素，例如: 中的矩形元素是倾斜的，但 rect 元素也向右移动(不需要)，我尝试手动设置位置使用 transform
html - 倾斜 div 容器上的文本溢出
目前我对应该倾斜的容器使用clip-path。 .box { height: 150px; line-height: 150px; text-align: center; backgr
python - OpenCV - 调整照片倾斜角度(倾斜)
我有一个相机从上方指向禅宗花园。然而，相机固定在侧面而不是直接在板的上方。结果，图像看起来像这样(注意矩形的倾斜形状): 有没有办法处理图像，使沙子区域看起来或多或少像一个完美的正方形？ cap =
objective-c - UIScrollview 倾斜
我正在尝试使用倾斜 350 度的 UIScrollview，我首先想到的是使用变换属性，滚动上的倾斜起作用了，但现在滚动上的所有内容看起来都不对，当我谈论所有内容时，我指的是位置和这个卷轴的所有 ch
ruby-on-rails - 倾斜(Bundler 依赖错误)
我需要将我的应用程序升级到 Rails 3.2.16，当时我做了 bundle update rails它给了我以下错误。 Bundler could not find compatible vers
ruby-on-rails - Gem::LoadError: 倾斜？
我正在尝试运行 rake db:migrate在本地，但我收到以下错误: Gem::LoadError: You have already activated rake 10.2.2, but you
带有背景图片的 CSS3 倾斜 div，整个图片后面有图片
很难用语言表达我想要完成的事情，所以请查看这张照片作为示例: 如您所见，我希望创建一个带有图案背景的倾斜 div(简单)，但另一部分，即倾斜被半遮住的部分，也必须有背景图像。我想到了很多不同的想法，并
loops - 如何使用嵌套 for 循环将两个二维(倾斜)数组相加？
假设，我想将两个二维数组添加到第三个二维数组中。我正在使用以下代码: cudaMallocPitch((void**)&device_a, &pitch, 2*sizeof(int),2); cud
带有背景图片的 CSS3 倾斜 div，整个图片后面有图片
很难用语言表达我想要完成的事情，所以请查看这张照片作为示例: 如您所见，我希望创建一个带有图案背景的倾斜 div(简单)，但另一部分，即倾斜被半遮住的部分，也必须有背景图像。我想到了很多不同的想法，并
javascript - jquery 倾斜/ curl 引号混淆
我刚刚遇到了这种附加字符串的变体，其中包含存储在变量中的值，这是我以前从未见过的。谁能帮我解释一下这是怎么回事？这是我遇到的情况: var fruit = "banana"; $main = $('
loops - 如何使用嵌套 for 循环将两个二维(倾斜)数组相加？
假设，我想将两个二维数组添加到第三个二维数组中。我正在使用以下代码: cudaMallocPitch((void**)&device_a, &pitch, 2*sizeof(int),2); cud
Java Visual VM 倾斜 CPU
我正在尝试分析在 Windows 上运行的 Java UI 应用程序的 CPU 使用率。我将它连接到 VisualVM，但看起来 CPU 使用率最高的是 sum.rmi.transport.tcp.T

首页

博学

6Ren·AI

商城

hadoop - 对大量倾斜数据集的 Hive 排序操作