gpt4 book ai didi

Hadoop:映射二进制文件

转载 作者:可可西里 更新时间:2023-11-01 14:47:53 34 4
gpt4 key购买 nike

通常在输入文件中,Mapper 函数能够部分读取和处理(如在文本文件中)。在处理开始之前,是否可以采取任何措施来处理二进制文件(例如图像、序列化对象),这需要所有 block 都位于同一主机上。

最佳答案

将您的图像粘贴到 SequenceFile 中;然后您将能够使用 map-reduce 迭代处理它们。

不那么神秘:Hadoop 本身对文本和非文本一无所知。它只有一个知道如何打开输入流的类(hdfs 处理将不同节点上的 block 拼接在一起,使它们显示为一个大文件)。最重要的是,您有一个 Reader 和一个 InputFormat,它们知道如何确定流中记录的开始位置、结束位置,以及如果您被放在文件中间的某个位置,如何找到下一条记录的开始。 TextInputFormat 只是一种实现,它将换行符视为记录分隔符。还有一种称为 SequenceFile 的特殊格式,您可以将任意二进制记录写入其中,然后将它们取回。用那个。

关于Hadoop:映射二进制文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3012505/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com