gpt4 book ai didi

hadoop - 何时使用多线程映射器

转载 作者:可可西里 更新时间:2023-11-01 14:25:09 25 4
gpt4 key购买 nike

什么时候应该使用多线程映射器?

如果我在我的应用程序是纯计算的地方使用多线程映射器,我的工作会更快吗? (无延迟类型映射器)

最佳答案

这取决于,但我会说避免使用 MultithreadedMapper 作为第一个解决方案。

因此,最好通过同时启动更多映射器来使用单线程映射器进行扩展,以便它们可以处理多个输入。您拥有的核心越多,您可以将 mapred.tasktracker.map.tasks.maximum 值设置得越高。当然,为此您需要更强大的机器。

我的理解是,当您受 I/O 限制时,MultithreadedMapper 很有用,例如从比本地 I/O 具有更多延迟的 Web 获取页面。在这种情况下,使用 MultithreadedMapper 会有所帮助,因为您不会被单个网络 I/O 调用阻塞,并且您可以在数据可用时继续处理。

但是,如果您在 HDFS 中有大量数据需要处理,那么由于数据是本地化的,因此很容易获取它们,如果计算受 CPU 限制,那么多核、多进程解决方案更有帮助。

此外,您还必须确保您的映射器是线程安全的。

关于hadoop - 何时使用多线程映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11304751/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com