gpt4 book ai didi

hadoop - 如何在hadoop的map函数中选择合适的值类型?

转载 作者:行者123 更新时间:2023-12-02 21:54:27 25 4
gpt4 key购买 nike

我正在使用一个值(value)很大的程序。每个值均由ID号组成(以逗号分隔的整数):

值1:1,207,688,4401,5432,40000,872111100

值2:65,876,992,10002,9843221

我将值存储为文本,但每个字符获取1个字节。如果id中的位数变大,则占用很多空间。我将值存储为文本类型吗?
哪种格式最适合存储?
谢谢。

最佳答案

如果真正关心内存效率,并且您知道这些ID的长度永远不会超过Long.MAX_VALUE,则建议使用LongWritable

相反,如果您知道它们的长度将足以使每个字符的字节数比以数字形式存储的内存效率更高,则Text非常适合。

在大多数情况下,考虑将其写出到文件中,不必担心太多-通常只有在使用某种形式进行计算的情况下,才值得将其转换为long,否则您可能会坚持使用Text可以避免在初始解析之上产生转换开销。

关于hadoop - 如何在hadoop的map函数中选择合适的值类型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15991855/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com