gpt4 book ai didi

hadoop - 如何使用 Hadoop 处理 .gz 输入文件?

转载 作者:可可西里 更新时间:2023-11-01 16:50:43 26 4
gpt4 key购买 nike

请允许我提供一个场景:

hadoop jar test.jar 测试inputFileFolder outputFileFolder

在哪里

  • test.jar 按键、时间和地点对信息进行排序
  • inputFileFolder包含多个.gz文件,每个.gz文件约10GB
  • outputFileFolder 包含一堆 .gz 文件

我的问题是处理 inputFileFolder 中那些 .gz 文件的最佳方式是什么?谢谢!

最佳答案

Hadoop 会自动检测和读取 .gz 文件。然而,由于 .gz 不是可拆分的压缩格式,每个文件将由单个映射器读取。最好的办法是使用另一种格式,例如 Snappy,或者解压缩、拆分并重新压缩成更小的 block 大小的文件。

关于hadoop - 如何使用 Hadoop 处理 .gz 输入文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33548519/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com