gpt4 book ai didi

Hadoop 概念

转载 作者:行者123 更新时间:2023-12-02 21:01:37 25 4
gpt4 key购买 nike

我正在使用 hadoop 使用开源接口(interface) HVPI 处理视频。然而,inputsplit 的实现,更准确地说是在 isSplitableobContext (context, Path file)方法返回 false .默认情况下,此方法返回 true但在当前的实现中,有理由返回 false .如果此方法返回 false我只有一个 map task 。如果我没记错的话,hadoop 会为每个输入拆分分配一个容器,该容器对应于执行映射任务的网络的某个节点的计算资源,并且该节点最好包含将要处理的数据。如果我有 false我将只有一个输入拆分,因此只有一个 map task ,这个 map task 将只在集群节点上运行。
最大的问题是唯一的 map 任务如何利用集群的所有 cpu 资源,而不仅仅是单个节点上的单个容器?

最佳答案

请通过:

http://bytepadding.com/big-data/map-reduce/understanding-map-reduce-the-missing-guide/

Lets try to understand what is the problem . 
1. One takes a file and divides it into fileSplits.
2. Each split is consumed by one mapper.
3. How do you make sure a record in the file is not split across two file splits.
4. A record cant be ignored nor read partially.
5. A InputFormat takes care of carefully splitting the file and handling situations when a record is split at the boundary of file splits.
6. Hadoop has varios inpuit formats like TextInputFormat, KeyValueTextInputFormat

尝试找到一种可用于您的视频文件的输入格式或自己编写一个。 FileInputFormat 是所有的基类。

关于Hadoop 概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43117370/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com