gpt4 book ai didi

performance - 使映射器处理多个文件而不是单个文件

转载 作者:可可西里 更新时间:2023-11-01 14:31:42 26 4
gpt4 key购买 nike

我有一个 hadoop 映射器代码,它将文件作为输入处理它们,并将单个键和处理后的值发送到 reducer。问题是我有将近 100000 个不超过 5.6 kb 的文本文件,但是当我运行该作业时,它需要很长时间才能完成。一个原因是每个映射器开始时只处理一个文件,然后被销毁。因此,即使处理在计算上并不昂贵,我也会在映射器启动时浪费很多时间。我如何确保映射器继续处理多个文件?我的映射器最大限制是默认设置,我可以看到它是 6。

如果需要任何进一步的详细信息,请告诉我。

最佳答案

你应该使用 CombineFileInputFormat处理许多小文件。这确实有助于提高性能。

关于performance - 使映射器处理多个文件而不是单个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22463559/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com