gpt4 book ai didi

image - 在 HDFS 中保存图像文件(jpeg、png)的输入格式

转载 作者:可可西里 更新时间:2023-11-01 16:43:32 26 4
gpt4 key购买 nike

我想在 HDFS(Hadoop 文件系统)上保存图像文件(如 jpeg、png 等)。我尝试了两种方法:

  1. 使用 put 命令将图像文件按原样(即以相同的格式)保存到 HDFS 中。完整的命令是:hadoop fs -put/home/a.jpeg/user/hadoop/。已成功放置。
  2. 将这些图像文件转换为 Hadoop 的 Sequence File 格式,然后使用 put 命令保存在 HDFS 中。

我想知道HDFS应该用什么格式保存。
使用 Sequence File 格式的优点是什么?我知道的优点之一是它是可拆分的。还有其他的吗?

最佳答案

与 HDFS 存储的 block 大小相比,图像的大小非常小。小文件的问题是对处理性能的影响,这就是为什么你应该使用序列文件、HAR、HBase 或合并解决方案。查看这两个线程的更多信息。

effective way to store image files

How many files is too many on a modern HDP cluster?

Processing a 1Mb file has an overhead to it. So processing 128 1Mb files will cost you 128 times more "administrative" overhead, versus processing 1 128Mb file. In plain text, that 1Mb file may contain 1000 records. The 128 Mb file might contain 128000 records.

关于image - 在 HDFS 中保存图像文件(jpeg、png)的输入格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38372860/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com