gpt4 book ai didi

hadoop - 当您使用 Pig Latin 有许多小输入文件时提高性能

转载 作者:可可西里 更新时间:2023-11-01 16:33:28 25 4
gpt4 key购买 nike

目前我正在处理大约 19 GB 的日志数据,

而且它们是分开的,因此输入文件的编号是 145258(pig stat)。

在 Web UI 中执行应用程序和启动 mapreduce 作业之间,

准备工作浪费了大量时间(大约 3 小时?),然后 mapreduce 作业开始。

而且 mapreduce 作业本身(通过 Pig 脚本)非常慢,大约需要一个小时。

mapreduce逻辑没有那么复杂,就像一个group by操作。

我有 3 个数据节点和 1 个名称节点,1 个辅助名称节点。

如何优化配置以提高 mapreduce 性能?

最佳答案

您应该将 pig.maxCombinedSplitSize 设置为合理的大小,并确保将 pig.splitCombination 设置为其默认值 true。

您的数据在哪里?在 HDFS 上?在 S3 上?如果数据在 S3 上,您应该将数据一次合并到更大的文件中,然后在其上执行您的 pig 脚本,否则,无论如何都会花费很长时间 - S3 返回带有分页的对象列表并且需要很长时间才能获取列表(同样,如果存储桶中有更多对象并且您没有使用仅前缀模式搜索文件,hadoop 将列出所有对象(因为 S3 中没有其他选项)。

关于hadoop - 当您使用 Pig Latin 有许多小输入文件时提高性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18459825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com