- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
在为我当前的一个项目构建基础架构时,我遇到了替换现有 HDFS 文件的问题。更准确地说,我想执行以下操作:
我们有几台机器(日志服务器)不断生成日志。我们有一台专用机器(日志预处理器)负责从日志服务器 ,对它们进行预处理并上传到我们的 Hadoop 集群的 HDFS。
预处理分为 3 个步骤:
最终日志文件 将用作在 HADOOP 集群上运行的多个 periodoc HADOOP 应用程序的输入。在 HDFS 中,日志文件存储如下:
hdfs:/spool/.../logs/YYYY-MM-DD.HH.MM.log
第 3 步中使用的映射会随着时间的推移发生变化,我们需要通过重新计算第 3 步并将旧的 HDFS 文件替换为新文件来反射(reflect)这些变化。此更新至少在过去 12 小时内以某种周期性(例如每 10-15 分钟)执行一次。请注意,如果 mapping 已更改,则对同一输入文件应用 step3 的结果可能会有很大不同(它不仅仅是先前结果的超集/子集)。所以我们需要覆盖 HDFS 中已有的文件。
但是,我们不能只执行 hadoop fs -rm 然后 hadoop fs -copyToLocal 因为如果某些 HADOOP 应用程序正在使用临时删除的文件应用程序可能会失败。我使用的解决方案——在旧文件附近放置一个新文件,这些文件具有相同的名称但不同的后缀表示文件的版本。现在布局如下:
hdfs:/spool/.../logs/2012-09-26.09.00.log.v1
hdfs:/spool/.../logs/2012-09-26.09.00.log.v2
hdfs:/spool/.../logs/2012-09-26.09.00.log.v3
hdfs:/spool/.../logs/2012-09-26.10.00.log.v1
hdfs:/spool/.../logs/2012-09-26.10.00.log.v2
任何 Hadoop 应用程序在启动(设置)期间都会选择具有最新版本的文件并使用它们。因此,即使正在进行某些更新,应用程序也不会遇到任何问题,因为没有输入文件被删除。
您是否知道不使用这种复杂/丑陋的文件版本控制的更简单的方法来解决这个问题?
某些应用程序可能会开始使用当前正在上传但尚未上传的 HDFS 文件(应用程序会在 HDFS 中看到此文件,但不知道它是否一致)。如果是 gzip 文件,这可能会导致映射器失败。你能告诉我如何处理这个问题吗?我知道对于本地文件系统我可以做类似的事情:
cp infile/finaldir/outfile.tmp && mv/finaldir/output.tmp/finaldir/output
这是可行的,因为 mv 是一个原子操作,但我不确定 HDFS 是否属于这种情况。如果 HDFS 在传统的本地文件系统中有像 mv 这样的原子操作,您能指点一下吗?
提前致谢!
最佳答案
IMO,文件重命名方法绝对适合。
HDFS,直到 1.x,缺少原子重命名(它们是 脏 更新 IIRC)——但该操作通常被认为是“类似原子的”,并且从未给您遇到的特定场景带来问题在这里记住。您可以依赖它而不必担心部分状态,因为源文件已经创建并关闭。
HDFS 2.x 及更高版本支持正确的原子重命名(通过新的 API 调用),它取代了早期版本的脏重命名。如果您使用 FileContext,这也是重命名的默认行为。 API。
关于hadoop - 原子 hadoop fs 移动,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12610345/
只是想知道 Jquery Mobile 是否足够稳定以用于实时生产企业移动应用程序。 有很多 HTML5 框架,因为我们的团队使用 JQuery 已经有一段时间了,我们更愿意使用 Jquery 移动框
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 3 年前。 Improve t
所以我尝试在 JavaScript 中对元素进行拖放。我使用的视频教程在这里; https://www.youtube.com/watch?v=KTlZ4Hs5h80 。我已经按照它的说明进行了编码,
无法在移动 iOS(safari 和 chrome)上自动播放以前缓存的 mp3 音频 我正在 Angular 8 中开发一个应用程序,在该应用程序的一部分中,我试图在对象数组中缓存几个传入的音频 m
Git 基于内容而不是文件,所以我目前理解以下行为,但我想知道是否有特殊选项或 hack 来检测此类事情: git init mkdir -p foo/bar echo "test" foo/a.tx
我正在寻找语义 ui 正确的类来隐藏例如移动 View 中的 DIV。在 Bootstrap 中,我们有“visible-xs”和“hidden-xs”。 但是在语义ui上我只找到了“仅移动网格” 最
我正在使用 ubuntu 和 想要移动或复制大文件。 但是当我与其他人一起使用服务器时,我不想拥有所有内存并使其他进程几乎停止。 那么有没有办法在内存使用受限的情况下移动或复制文件? 最佳答案 如果你
这些指令有什么区别?以 ARM9 处理器为例,它不应该是: ASM: mov r0, 0 C: r0 = 0; ASM: ld r0, 0 C: r0 = 0; ? 我不知道为什么要使用一个或另一个:
我有一个文件夹,其中包含一些随机命名的文件,其中包含我需要的数据。 为了使用数据,我必须将文件移动到另一个文件夹并将文件命名为“file1.xml” 每次移动和重命名文件时,它都会替换目标文件夹中以前
我经常在 IB/Storyboard 中堆叠对象,几乎不可能拖动其他对象后面的对象而不移动前面的对象。无论如何我可以移动已经选择但位于其他对象后面的对象吗?当我尝试移动它时,它总是选择顶部的对象,还是
几个月前,我看到 Safari 7 允许推送通知,它似乎是一个非常有用的工具,除了我看到的每个示例都专注于桌面浏览,而不是移动设备。 Safari 推送通知是否可以在移动设备上运行,如果没有,是否有计
我有一个简单的 View 模型,其中包含修改后的 ObservableCollection使用 SynchronizationContext.Current.Send在 UI 线程上执行对集合的更改。
关于cassandra创建的数据文件和系统文件的位置,我需要移动在“cassandra.yaml”配置文件中设置的“commitlog_directory”、“data_file_directorie
我有这个代码 $(function() { var message = 'Dont forget us'; var original; var txt1 = ' - '; $(wind
我的客户报告说他的网站有一个奇怪的问题。该网站的 URL 是 your-montenegro.me 在 基于 Android 的浏览器 上加载时,页面底部会出现一个奇怪的空白区域。以下是屏幕截图: 华
我有这个 HTML 标记: Express 300 bsf Sign Up 我需要将元素从 DOM 上的一个
我有一个可重新排序的 TableView (UITableView 实例)。尽管我已经实现了 UITableViewDataSource 方法: tableView:moveRowAtIndexPat
我的客户报告说他的网站有一个奇怪的问题。该网站的 URL 是 your-montenegro.me 在 基于 Android 的浏览器 上加载时,页面底部会出现一个奇怪的空白区域。以下是屏幕截图: 华
我需要在拖放或复制/剪切和粘贴(复制与移动)期间获取操作类型。它是一个 Swing 应用程序,并且实现了 TransferHandle。我在操作结束时需要此信息,在 importData 方法中。 对
我编写了一个具有 add 和 get 方法的 SortedIntList 类。 我调用以下四个方法: SortedIntList mySortedIntList = new SortedIntList
我是一名优秀的程序员,十分优秀!