gpt4 book ai didi

hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量

转载 作者:可可西里 更新时间:2023-11-01 16:36:17 25 4
gpt4 key购买 nike

我尝试使用 tez 处理大数据(约 150GB)的过程(句子的单词标签),但问题是它花了很多时间(1 周或更多),然后

我试图指定映射器的数量。虽然我设置了 mapred.map.tasks =2000,但我无法阻止 mapper 被设置为 150 左右,所以我不能做我想做的事。

我在 oozie 工作流文件中指定映射值并使用 tez。

如何指定映射器的数量?

最后想加快进程,不用tez也可以。

另外,我想用reducer统计标记的句子,也很花时间。

而且,我还想知道如何调整内存大小以使用每个映射器和缩减器进程。

最佳答案

In order to manually set the number of mappers in a Hive query when TEZ is the execution engine the configuration tez.grouping.split-count can be used...

... set tez.grouping.split-count=4 will create 4 mappers

https://community.pivotal.io/s/article/How-to-manually-set-the-number-of-mappers-in-a-TEZ-Hive-job


但是,总的来说,您应该在开始之前优化存储格式和 Hive 分区 tuning the Tez settings .不要尝试在 Hive 中处理数据 STORED AS TEXT。首先将其转换为 ORC 或 Parquet。

如果 Tez 不适合您,您可以随时尝试 Spark。再加上标记句子可能是您可以在某处找到的 Spark MLlib worlflow

关于hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52013727/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com