gpt4 book ai didi

hadoop - Hadoop map函数的 "key"参数没有使用

转载 作者:可可西里 更新时间:2023-11-01 15:31:54 25 4
gpt4 key购买 nike

我一直在努力学习hadoop。在我看到的例子中(比如字数统计的例子)根本就没有使用map函数的key参数。 map 函数仅使用该对的值部分。所以看起来key这个参数是不需要的,其实不应该的。我在这里错过了什么?你能给我一个使用 key 参数的示例映射函数吗?

谢谢

最佳答案

要了解 key 的使用,您需要了解 Hadoop 中可用的各种输入格式。

  1. 文本输入格式 -纯文本文件的 InputFormat。文件被分成几行。换行符或回车符用于表示行结束。键是文件中的位置,值是文本行..

  2. NLineInputFormat-NLineInputFormat 将 N 行输入拆分为一个拆分。在许多“愉快”的并行应用程序中,每个进程/映射器处理相同的输入文件,但计算由不同的参数控制。(称为“参数扫描”)。实现此目的的一种方法是指定一组参数(每行一组)作为控制文件中的输入(这是 map-reduce 应用程序的输入路径,其中输入数据集是通过配置变量指定的工作 session )。 NLineInputFormat 可用于此类应用程序,它拆分输入文件,默认情况下,一行作为值提供给一个映射任务,键是偏移量。即 (k,v) 是 (LongWritable, Text)。位置提示将跨越整个 mapred 集群。

  3. 键值文本输入格式 -纯文本文件的 InputFormat。文件被分成几行。换行符或回车符用于表示行结束。乙每行由分隔符字节分为键和值部分。如果不存在这样的字节,则键将是整行,值将为空。

  4. SequenceFileAsBinaryInputFormat-InputFormat 以二进制(原始)格式从 SequenceFile 中读取键和值。

  5. SequenceFileAsTextInputFormat-这个类类似于 SequenceFileInputFormat,除了它生成 SequenceFileAsTextRecordReader 来转换输入的键和值通过调用 toString() 方法转换为它们的字符串形式。

关于hadoop - Hadoop map函数的 "key"参数没有使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31663500/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com