gpt4 book ai didi

hadoop - 为什么 Amazon EMR 上的机器越多,我的 Pig UDF 就不能更快?

转载 作者:可可西里 更新时间:2023-11-01 14:45:27 24 4
gpt4 key购买 nike

我是 Hadoop 和大数据方面的新手。我们每天都有数百个日志文件。每个文件大约 78Mb。因此,我们认为我们可以从 Hadoop 作业中获益,我们可以编写 Pig UDF 并提交给 Amazon EMR。

我们做了一个非常简单的 Pig UDF

public class ProcessLog extends EvalFunc<String> {
// Extract IP Address from log file line by line and convert that to JSON format.
}

它在本地与 Pig 和 hadoop 一起工作。因此,我们提交给 Amazon EMR,并使用 5 倍超大实例运行。大约花了 40 分钟才完成。因此,我们认为如果我们将实例加倍(10 倍 x 大),我们会更快地得到结果,但结果却变慢了。在编写 Pig UDF 以更快地获得结果时,我们需要考虑哪些因素?

最佳答案

Hundreds of log files ... Each file is about ~78Mb

问题是您没有“大数据”。除非你对每个 MB 进行几秒钟的处理,否则不使用 Hadoop 会更快。 (大数据的最佳定义是“数据如此之大或流式传输如此之快以至于普通工具无法工作”。)

Hadoop 有很多开销,所以当您的数据很小(几 GB)时,您应该使用“普通”工具。您的数据可能适合我手机的 RAM!使用类似 parallel 的东西以确保您所有的核心都被占用。

关于hadoop - 为什么 Amazon EMR 上的机器越多,我的 Pig UDF 就不能更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34644926/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com