- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我已经阅读了很多博客条目和关于“hadoop 中的小文件问题”的文章,但是其中很多似乎只是复制粘贴以前的。此外,它们似乎都有点过时,最后一个(2015 年左右)描述的是什么 this cloudera blog 2009年初做的。
这是否意味着 6 年内没有找到归档解决方案?
这是我研究的原因:我需要移动和编目文件,当它们以不同的数量出现时,有时甚至是单个文件,然后将它们存储在 HDFS 中 .
这些文件将稍后被访问并返回到网络服务层(必须很快),以供人或软件打开和查看。
这些文件可能是视频、图像、文档等等,以后需要使用我用 Java 类 UUID
生成的 ID 进行访问。
使用 hdfs 的选择完全由我的 PM 个人决定,因为我建议使用 HBase 来弥补 HDFS 中索引不足的问题(尽管我不确定这是一个最佳解决方案),但他有要求我无论如何都要查看 HBase 之外的文件,以防不得不处理更大的文件(到目前为止,1000 个文件中最大的文件是 2MB,但我们希望有 1Gb 的视频)。
据我了解,当您使用 MapReduce 作业时会发生小文件问题,因为内存消耗,但我想知道:
如果我使用 Spark 提取文件,HDFS 中有多少文件真的很重要吗?或者如果我使用的是 webhdfs/v1/?还是 Java?
关于存储一组小文件,目前我找到了三种主要的解决方案,它们在生产环境中都非常不方便:
关于这个常见问题,我是否遗漏了一些新技术?文件是 Avro 还是 Parquet?
最佳答案
这里是对您的解决方案的一些反馈:
a) HAR 不可追加。您可以通过 HDFS 命令行界面使用新文件取消存档和存档 har 存档。这两种方法都作为 MapReduce 作业实现,因此执行时间取决于您的计算集群以及存档文件的大小。我和我的同事使用和开发AHAR .一种允许您更有效地附加数据而无需重写整个存档的工具。
b) 据我所知,您的索引查找时间长是对的。但请注意,由于两步索引策略,使用 HAR 时您的查找时间也更长。
这post为您提供了关于小文件问题和可能解决方案的非常好的概述。也许您可以“只是”增加 NameNode 的内存。
关于java - 在 Hadoop HDFS 中存储小文件的方法,而不是 HAR 或 Sequence Files + 对它们的疑惑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38431925/
给定一个 Sequence of Sequences 类型,如何将其转换为单个扁平化 Sequence 类型?考虑以下 Ceylon 代码: Integer[] range(Integer max)
出于学习目的,我正在尝试使用 F# 以序列形式运行模拟。从一系列随机数开始,如果状态不依赖于先前的状态,map 是生成状态序列的直接方法。我遇到问题的地方是当我尝试做类似的事情时: State(i+1
我正在 DynamoDB 上开发论坛。 有一个帖子表,其中包含线程中的所有帖子。我需要对帖子中的顺序有一个概念,即我需要知道哪个帖子先出现,哪个后出现。 我的服务将在分布式环境中运行。 我不确定使用时
我正在 DynamoDB 上开发论坛。 有一个帖子表,其中包含线程中的所有帖子。我需要对帖子中的顺序有一个概念,即我需要知道哪个帖子先出现,哪个后出现。 我的服务将在分布式环境中运行。 我不确定使用时
在 Z3 中,它支持 String 和 Sequence。但是 Z3py 是否也支持它们,或者我们必须使用 Python 中的字符串或列表?从最新的版本来看,新版本好像确实支持了String和Sequ
我是 Clojure 世界的新手,我遇到了一个问题。我得到了一个 LazySeq,看起来像这样(实际上更长) values = (("Brand1" "0") ("Brand2" "15") ("Br
我正在开发一个用于文本生成的序列到序列模型 ( paper )。我没有在解码器端使用“教师强制”,即 t0 时解码器的输出被馈送到 t1 时解码器的输入。 现在,实际上,解码器(LSTM/GRU)的输
Rust 中的规则是什么,类似于这里描述的规则http://en.cppreference.com/w/cpp/language/eval_order对于 C++? 目前我凭经验发现, 1) 函数的参
我当前的代码: import re from Bio.Seq import Seq def check_promoter(binding_element,promoter_seq): promoter
您好,此代码旨在存储使用 open cv 绘制的矩形的坐标,并将结果编译为单个图像。 import numpy as np import cv2 im = cv2.imread('1.jpg') im
在我的程序中,我有一个正则表达式,它确保输入字符串至少有一个字母和一个数字字符,并且长度在 2 到 10 之间。 Pattern p = Pattern.compile("^(?=.*\\d)(?=.
我正在查看 Google 的免费机器学习速成类(class),并尝试根据他们类(class)的第一部分制作一个预测模型。但是,在输入函数中,有一个字典,我不断收到此错误, in my_input_fn
我想使用 Boost 的 any_range 来处理多个异构数据范围。我的数据范围类型称为 fusion vector ,例如: typedef vector TypeSequence 鉴于这样的类型
我正在使用 SimpleJdbcInsert 作为, SimpleJdbcInsert simpleJdbcInsert = new SimpleJdbcInsert(dataSource).with
我正在尝试通过从我的数据创建 .phy 文件来创建系统发育树。 我有一个数据框 ndf= ESV trunc 1 esv1 TACGTAGGTG... 2 esv2 TACGGAGGGT... 3 e
这可能真的很简单,但我正处于 Rx 学习曲线的底部。我花了几个小时阅读文章、观看视频和编写代码,但我似乎对一些看起来应该非常简单的事情有心理障碍。 我正在从串行端口收集数据。我已使用 Observab
我正在将一些模块从 v8 迁移到 v10,我有这个模型: class SearchInfoPartnerSeniat(models.TransientModel): _name = "search.i
我尝试添加一个新的“自定义”序列到我的Marten DB中,以获取新用户的用户ID(在注册过程中)。。后来,我能够访问下一个序列值,如下所示:。问题出在上面的代码中:在第一次运行时:将userid_s
我在 rosettacode 遇到了这个代码 my @pascal = [1], { [0, |$_ Z+ |$_, 0] } ... Inf; .say for @pascal[^4]; # ==>
我不明白为什么这个程序有效: my $supply = Supply.interval: 1; react { whenever $supply { put "Got $^a" }
我是一名优秀的程序员,十分优秀!