gpt4 book ai didi

hadoop - 如何在hadoop流中指定带有长度的键和值?

转载 作者:行者123 更新时间:2023-12-02 21:38:50 26 4
gpt4 key购买 nike

在hadoop流中,“-D stream.map.output.field.separator=.\”和“-D stream.num.map.output.key.fields=4\”用于指定key字段和value字段。
但在我的问题中,根本没有分隔符,记录如下:
AAA__BBBBBB CCC__DDDDDD
我想指定 1 到 3 个字符作为键,最后一个作为值,我该怎么办?
此外,辅助键问题(用于辅助排序)在哪里,如何指定它们?

最佳答案

如果您的数据如下所示:

AAA__BBBBBB
CCC__DDDDDD
...

那么你肯定有一个分隔符。 __将是您的分隔符,您可以使用以下命令告诉 hadoop:
$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-D stream.map.output.field.separator=__ \
...

您的 key 将是 AAACCC您的值将是 BBBBBBDDDDDD .你不需要 -D stream.num.map.output.key.fields=4因为您只有一个分隔符( __ )。

关于hadoop - 如何在hadoop流中指定带有长度的键和值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30262845/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com