gpt4 book ai didi

java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行

转载 作者:可可西里 更新时间:2023-11-01 16:48:29 26 4
gpt4 key购买 nike

我已经阅读了很多关于 Hadoop 的文档和信息,但无法弄清楚如何实现这个简单的工作流:

  1. 我想在我的工作机器上使用 Hadoop Java API 开发和编译 Hadoop MapReduce,并安装了所有 IDE 等。
  2. 我想以最简单的方式(最好是通过 IDE)在 Hadoop 集群上部署和运行 MapReduce 作业
  3. 我希望能够将这些 MapReduce 作业集成到外部应用程序中,并能够透明地运行它们。

看起来所有开发/编译/运行都应该在 MasterNode 上完成,其中存在 bin/hadoop 命令行实用程序和 Hadoop 库。我说得对吗?

开发、运行、部署 MapReduce 应用程序的一般方法是什么?是否有某种 maven 插件可以将所有 Hadoop 依赖项集成到您的项目中?

最佳答案

I want to develop and compile Hadoop MapReduce with Hadoop Java API on my working machine with all installed IDEs, etc.

您可以从此 playlist 观看视频 3、4 和 5了解如何在本地运行 map reduce 应用程序。

它提供了有关如何开发 map reduce 的信息使用 STS 的应用程序(Spring Tool Suite - eclipse with spring andmaven 插件)

如果你有 eclipse 和 maven,你只需要创建 pom 文件正确的依赖关系。

I want to deploy and run MapReduce jobs onto Hadoop cluster with simplest possible way (better from IDE)

从 IDE 在集群上运行 hadoop map reduce 作业非常乏味。但是,您可以使用 JDBC 运行配置单元查询。

I want to be able to integrate these MapReduce jobs into external application and be able to run them transparantly.

您可以将它与其他应用程序集成运行,但该节点有拥有 hadoop 二进制文件。

It looks like that all developing/compiling/running should by done on MasterNode where exist bin/hadoop command line utility and Hadoop libraries. Am I correct?

需要在主节点上运行是不正确的理解。实际上你永远不应该从主节点运行任何东西。通常应该使用网关节点或客户端节点来提交作业。网关或者客户端节点将拥有所有 hadoop 二进制文件和配置文件但它不会运行任何守护进程。

What are the general approaches to developing, running, deploying MapReduce applications? Is there some kind of maven plugin for integrate all Hadoop dependencies into you project?

上面的答案详细解释了这一点

关于java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34600515/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com