gpt4 book ai didi

hadoop - hive是怎么存储sequencefile的?

转载 作者:可可西里 更新时间:2023-11-01 14:50:23 28 4
gpt4 key购买 nike

有一个hive内表,存储为sequence file,第一列类型为string,字段分隔符为'\1',想直接用Mapreduce处理,发现输入key为字节可写。我的问题是 hive 如何在序列文件中存储数据?我得到 bytesWritable 键的原因是第一列类型是字符串吗?我没有配置map的key分隔符为'\1',所以对第二个问题很疑惑

最佳答案

Hive 不会将第一列视为 SequenceFile 的键。相反, key 被完全忽略。 [1] [2] .因此,当您编写 Mapper 以在 Hive SequenceFile 上进行操作时,您还应该忽略 Key。您的所有列都将成为值的一部分。

以防万一您的 Value 也是 BytesWritable 而您希望它是 Text,请尝试 SequenceFileAsTextInputFormt ( docs )。 this similar question的答案问题可能会帮助您进行设置。您应该能够使用简单的 toString()Text 中获取 String。您的分隔符 '\1' 将出现在这里。在 '\1' 上拆分您的 String 以将其分隔到 Hive 中的列中。

关于hadoop - hive是怎么存储sequencefile的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16710282/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com