gpt4 book ai didi

hadoop - Hadoop如何处理没有键值结构的文件

转载 作者:行者123 更新时间:2023-12-02 20:20:58 25 4
gpt4 key购买 nike

我是Hadoop的新手,正在学习Map Reduce范例。在本教程中,我遵循的观点是,映射缩小方法倾向于基于文件的键值应用两个操作(映射和缩小)。我知道hadoop还可以处理非结构化数据,因此我想知道在非结构化数据的情况下它如何处理map reduce。

最佳答案

以文字为例

Hello
World

文本有两行,但是自然有一个键和一个值,文件偏移量和该行本身。如果您将文件十六进制转储,则会看到类似的内容
0x0 Hello
0x6 World

HDFS就是这样知道如何将纯文本文件拆分为块的,因此可以使用mapreduce(和其他运行时引擎)读取该数据。

如果要存储视频,图像,音频,pdf文档等,则必须实现自己的InputFormat阅读器,以确定文件的字节应该如何结构化和并行化(如果有的话)

关于hadoop - Hadoop如何处理没有键值结构的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60525122/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com