gpt4 book ai didi

hadoop - 如何文件监视目录然后自动加载到 HDFS

转载 作者:可可西里 更新时间:2023-11-01 15:36:26 27 4
gpt4 key购买 nike

我对 Hadoop 非常陌生,在过去的几天里,我一直在努力掌握它。我一直在阅读 Tom White 的“Hadoop:权威指南”并浏览 HortonWorks 上的各种教程。我还在本地 VM 上设置了一个沙盒来玩。

基本上我们将在系统上有一个目录,文件将被转储到该目录。每当一个文件被放置在这个目录中时,它应该被远程移动/复制到我们的 HDFS 中。

这听起来应该是一个常见的用例,但我似乎找不到关于此类事情的太多信息。我简要地研究了 Oozie 和 Falcon,因为它们似乎是工作流工具/管理系统。但我真的找不到能做我想做的事情。我宁愿使用内置于 Hadoop 或通常配置的东西,然后使用我自己的文件观察器或服务来完成它。

我不知道我是否问错了问题,看错了地方,或者我对 hadoop 的理解是否存在根本性缺陷。

有人可以帮我指出正确的方向,或者如果我误解了什么,请纠正我它是如何工作的。

编辑:这blog post建议使用 Cron 作业定期扫描目录。我没有编写 cron 作业的经验,但似乎大概只是定期运行文件监视脚本。我希望找到 hadoop 内置的东西,或者至少找到一个几乎专门与 hadoop 一起使用的工具,如 Flume 或 Sqoop。

最佳答案

一种方法是使用 HFDS fuse 。

您可以将它安装在基于 linux 的系统上并使用常规的文件观察器

关于hadoop - 如何文件监视目录然后自动加载到 HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24440954/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com