- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
在为我当前的一个项目构建基础架构时,我遇到了替换现有 HDFS 文件的问题。更准确地说,我想执行以下操作:
我们有几台机器(日志服务器)不断生成日志。我们有一台专用机器(日志预处理器)负责从日志服务器 ,对它们进行预处理并上传到我们的 Hadoop 集群的 HDFS。
预处理分为 3 个步骤:
最终日志文件 将用作在 HADOOP 集群上运行的多个 periodoc HADOOP 应用程序的输入。在 HDFS 中,日志文件存储如下:
hdfs:/spool/.../logs/YYYY-MM-DD.HH.MM.log
第 3 步中使用的映射会随着时间的推移发生变化,我们需要通过重新计算第 3 步并将旧的 HDFS 文件替换为新文件来反射(reflect)这些变化。此更新至少在过去 12 小时内以某种周期性(例如每 10-15 分钟)执行一次。请注意,如果 mapping 已更改,则对同一输入文件应用 step3 的结果可能会有很大不同(它不仅仅是先前结果的超集/子集)。所以我们需要覆盖 HDFS 中已有的文件。
但是,我们不能只执行 hadoop fs -rm 然后 hadoop fs -copyToLocal 因为如果某些 HADOOP 应用程序正在使用临时删除的文件应用程序可能会失败。我使用的解决方案——在旧文件附近放置一个新文件,这些文件具有相同的名称但不同的后缀表示文件的版本。现在布局如下:
hdfs:/spool/.../logs/2012-09-26.09.00.log.v1
hdfs:/spool/.../logs/2012-09-26.09.00.log.v2
hdfs:/spool/.../logs/2012-09-26.09.00.log.v3
hdfs:/spool/.../logs/2012-09-26.10.00.log.v1
hdfs:/spool/.../logs/2012-09-26.10.00.log.v2
任何 Hadoop 应用程序在启动(设置)期间都会选择具有最新版本的文件并使用它们。因此,即使正在进行某些更新,应用程序也不会遇到任何问题,因为没有输入文件被删除。
您是否知道不使用这种复杂/丑陋的文件版本控制的更简单的方法来解决这个问题?
某些应用程序可能会开始使用当前正在上传但尚未上传的 HDFS 文件(应用程序会在 HDFS 中看到此文件,但不知道它是否一致)。如果是 gzip 文件,这可能会导致映射器失败。你能告诉我如何处理这个问题吗?我知道对于本地文件系统我可以做类似的事情:
cp infile/finaldir/outfile.tmp && mv/finaldir/output.tmp/finaldir/output
这是可行的,因为 mv 是一个原子操作,但我不确定 HDFS 是否属于这种情况。如果 HDFS 在传统的本地文件系统中有像 mv 这样的原子操作,您能指点一下吗?
提前致谢!
最佳答案
IMO,文件重命名方法绝对适合。
HDFS,直到 1.x,缺少原子重命名(它们是 脏 更新 IIRC)——但该操作通常被认为是“类似原子的”,并且从未给您遇到的特定场景带来问题在这里记住。您可以依赖它而不必担心部分状态,因为源文件已经创建并关闭。
HDFS 2.x 及更高版本支持正确的原子重命名(通过新的 API 调用),它取代了早期版本的脏重命名。如果您使用 FileContext,这也是重命名的默认行为。 API。
关于hadoop - 原子 hadoop fs 移动,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12610345/
有没有办法用连词创建原子 if ?也就是说,我可以以某种方式在 C 中自动测试 if(A && B) 吗?如果它在第一个连接处短路,那么没问题,但如果没有短路,则在检查 B 时,A 可能已更改。有什么
我有很多 fork 的过程。子进程做很多事情和另一个系统调用。 当任何子进程从系统调用中获取错误时,它会将错误描述打印到 stderr 并将 SIGUSR1 发送到组长(主要父进程)。 SIGUSR1
阅读 boost::atomic 上的文档和 std::atomic 让我感到困惑的是 atomic 是否接口(interface)应该支持非平凡类型? 也就是说,给定一个只能通过将读/写包含在一个完
我有一个命令,可以将叠加图像放在视频上。 之后,我调整输出大小以适合某些尺寸。 通常一切正常,但有时且仅在某台台式计算机上,当第二次精化开始时,命令返回错误:moov atom not found 让
我最近发现当 LANG 设置为 C.utf8 时,X11 原子 WM_NAME 未在 Swing JFrame 中设置。但为 LANG 的其他值设置。这发生在带有 OpenJDK 11.0.9 的 L
我目前正在使用blackmagic的prorecorder录制视频。我使用 ffmpeg 将视频即时转码为 mp4 视频容器。持续时间未知,因为我正在对 prorecorder 输出到命名管道的 .t
这里真的有人使用 atom 来处理 git 提交消息吗?我想但我遇到了这个问题并且一直坚持使用 git commit -m '....' 。当我尝试使用 atom 时,它会打开 atom,我几乎立即从
考虑: void foo() { std::vector> foo(10); ... } foo 的内容现在有效吗?或者我是否需要显式循环并初始化它们?我检查过 Godbolt,看起来不错,但
在official FAQ我阅读的 Memcached: “发送到 memcached 的所有单独命令都是绝对原子的。” 然而,当涉及到 get_multi 和 set_multi 时,我仍然不清楚。
在测试程序的可扩展性时,我遇到了必须将 memcpy 操作设置为原子操作的情况。我必须将 64 字节的数据从一个位置复制到另一个位置。 我遇到了一种解决方案,即使用旋转变量: struct recor
我对 C++ 原子变量感到困惑。如果我有一个原子 x,我想在一个线程中递增并在另一个线程中读取,我可以执行++x 还是必须执行 x.atomic_fetch_add(1)。在读者线程中,我可以做类似
跟进自 Multiple assignment in one line ,我很想知道这对原子数据类型是如何工作的,特别是 bool 类型的例子。 给定: class foo { std::at
我想创建一个版本控制系统,并且对版本号为 1 的新条目的查询如下所示: ID 和修订号组合起来就是主键。 insert into contentfile (id, name, revision, ac
我在 iOS 项目中有下一个独立的测试片段: /// ... std::atomic_bool ab; ab.store(true); bool expected = false; while (!a
我了解如何使用条件变量(此构造的名称很糟糕,IMO,因为 cv 对象既不是变量也不表示条件)。所以我有一对线程,canonically使用 Boost.Thread 设置为: bool awake =
因此,对于最终项目,我尝试制作一款包含三种不同 meteor 的游戏;铜牌、银牌和金牌。虽然青铜阵列在Setup()中工作正常,但银色和金色 meteor 由于某种未知原因而高速移动。 functio
第一个问题,为什么不在 atomic_compare_exchange_weak 操作的参数中应用后缀求值 (++)?运算前后a的值相同。然而,当在 printf() 中使用时,正如预期的那样,该值会
我正在尝试使用 OpenMP 对已经矢量化的代码进行内部函数并行化,但问题是我使用一个 XMM 寄存器作为外部“变量”,我会在每个循环中递增。现在我正在使用 shared 子句 __m128d xmm
clojure“atom”的文档指出 - "Changes to atoms are always free of race conditions." 但是,竞争条件不仅根据更改定义,而且在不同线程中
我一直在研究原子引用计数的实现。 库之间的大多数操作都非常一致,但我在“减少引用计数”操作中发现了惊人的多样性。 (请注意,通常情况下,shared 和 weak decref 之间的唯一区别是调用了
我是一名优秀的程序员,十分优秀!