java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行-6ren

java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行

转载作者：可可西里更新时间：2023-11-01 16:48:29

26

4

我已经阅读了很多关于 Hadoop 的文档和信息，但无法弄清楚如何实现这个简单的工作流:

我想在我的工作机器上使用 Hadoop Java API 开发和编译 Hadoop MapReduce，并安装了所有 IDE 等。
我想以最简单的方式(最好是通过 IDE)在 Hadoop 集群上部署和运行 MapReduce 作业
我希望能够将这些 MapReduce 作业集成到外部应用程序中，并能够透明地运行它们。

看起来所有开发/编译/运行都应该在 MasterNode 上完成，其中存在 bin/hadoop 命令行实用程序和 Hadoop 库。我说得对吗？

开发、运行、部署 MapReduce 应用程序的一般方法是什么？是否有某种 maven 插件可以将所有 Hadoop 依赖项集成到您的项目中？

最佳答案

I want to develop and compile Hadoop MapReduce with Hadoop Java API on my working machine with all installed IDEs, etc.

您可以从此 playlist 观看视频 3、4 和 5了解如何在本地运行 map reduce 应用程序。

它提供了有关如何开发 map reduce 的信息使用 STS 的应用程序(Spring Tool Suite - eclipse with spring andmaven 插件)

如果你有 eclipse 和 maven，你只需要创建 pom 文件正确的依赖关系。

I want to deploy and run MapReduce jobs onto Hadoop cluster with simplest possible way (better from IDE)

从 IDE 在集群上运行 hadoop map reduce 作业非常乏味。但是，您可以使用 JDBC 运行配置单元查询。

I want to be able to integrate these MapReduce jobs into external application and be able to run them transparantly.

您可以将它与其他应用程序集成运行，但该节点有拥有 hadoop 二进制文件。

It looks like that all developing/compiling/running should by done on MasterNode where exist bin/hadoop command line utility and Hadoop libraries. Am I correct?

需要在主节点上运行是不正确的理解。实际上你永远不应该从主节点运行任何东西。通常应该使用网关节点或客户端节点来提交作业。网关或者客户端节点将拥有所有 hadoop 二进制文件和配置文件但它不会运行任何守护进程。

What are the general approaches to developing, running, deploying MapReduce applications? Is there some kind of maven plugin for integrate all Hadoop dependencies into you project?

上面的答案详细解释了这一点

关于java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34600515/

26

4

0

文章推荐： hadoop - 访问 hdfs 文件夹

文章推荐： hadoop - 如何从 Oozie 调用驱动类

postgresql - 集群 PostgreSQL 集群
由于 PostgreSQL 人员选择的术语不当，这会让一些人感到困惑，但请耐心等待... 我们需要能够支持多个 PostgreSQL (PG) 集群，并将它们集群在多个服务器上，例如使用repmgr.
hadoop - 1 个大 Hadoop 和 Hbase 集群 vs 1 个 Hadoop 集群 + 1 个 Hbase 集群
Hadoop会跑很多jobs，从Hbase读取数据，写数据到数据库。假设我有 100 个节点，那么有两种方法可以构建我的 Hadoop/Hbase集群: 100节点hadoop&hbase集群(1个b
kafka 集群
在kafka中，我们能创建多种类型的集群，一般如下：单节点——单个broker集群单节点——多broker集群多结点——多broker集群 kafka集群中主要有五个组件： Topic：主题主要
不同操作系统的 MPI 集群
我想在两台机器上运行我的 MPI 程序，一台是 ubuntu 18.04，另一台是 Windows 10。是否可以使用不同的操作系统组成一个集群？ (我正在使用 MPICH) 如果可能，怎么做？我在网
RabbitMQ 集群 - 更新负载平衡集群中节点的最佳实践？
简介: 更新负载平衡集群中的节点的最佳实践是什么？我们在 ha 代理负载均衡器后面使用 RabbitMQ 集群来支持我们的客户端轻松集群，as suggested in the RabbitMQ d
与其他节点具有相同等级的 graphviz 集群
我正在尝试创建一个图表，我明确指定了许多节点的等级并指定了集群。以下代码生成我想要的图形类型: digraph { rankdir=LR subgraph cluster0 {
具有三个节点的 Rabbitmq 集群
我正在尝试在 RABBITMQ 上进行集群。我添加了 2 个节点，但无法添加第 3 个节点。我已经聚集了 rabbit@node1 和 rabbit@node2。现在我正在尝试将 rabbit@nod
每个应用程序的 Kubernetes 集群？
我在 MS Azure 的生产环境中启用了一个双集群多区域 HA。我被要求重用同一个集群来使用微服务管理几个新项目。这里的最佳做法是什么？我应该为每个应用程序创建一个集群吗？将不同集群中的每个项目
elasticsearch - Elasticsearch 集群
我正在尝试 flex 搜索，并且很难在具有3个 flex 搜索实例的单台计算机上创建集群。我对实例进行了以下更改: 在所有实例上更改了群集名称{cluster.name:es-stack} 在所有实例
具有自定义集群配置的 Redis 集群
我想创建一个redis集群，仅将特定的redis主机作为主服务器和从服务器。另外，我想自己指定哪个主机应该是哪个主机的副本。目前，cluster-create command当在任何一个 Redis
Magento 集群/负载平衡设置
我计划在具有负载平衡的集群中设置 Magento，那么是否可以让两个 Magento 安装指向同一个数据库？如果可能的话 - 我应该如何配置这些服务器的基本 URL？服务器应该具有相同的名称吗？最
PHP/MySql 集群
我目前正在计划一个 Web 应用程序，我想计划它最终在集群上运行。集群将由一个 php web 集群和一个 mysql 集群以及一个独立的存储单元组成(也许是一个集群，我真的不知道它是如何工作的:s
Elasticsearch 集群 'master_not_discovered_exception'
我已经安装了 elasticsearch 2.2.3 并在 2 个节点的集群中配置节点 1 (elasticsearch.yml) cluster.name: my-cluster node.nam
java - 集群/分布式服务有哪些好的中间件解决方案
我正在寻找现有的中间件解决方案，以解决服务集群/分布方面的问题，以实现负载平衡和可用性。我正在考虑基于消息传递系统(更具体地说，JMS)为此构建自己的基础设施。但是，如果可能的话，我宁愿使用已经存在的
Hadoop 集群。数据在集群数据节点之间自动复制
在 Hadoop 集群中，数据是自动跨数据节点复制还是必须编程？如果必须编程，那我该怎么做呢？最佳答案 dfs.replication 的默认值为 3。这存在于您的 hdfs.site.xml 中
负载均衡器上的 Redis 集群
我已经设置了一个具有 1 个主节点和 2 个从节点的 redis 集群，哨兵在所有 3 个节点上运行。在此设置之前，我的应用程序指向运行 Redis 实例的单个节点。集群搭建完成后，我的应用应该指
redis 集群 - 与集群交互是否需要代理或集群支持库？
所以，我正在设计一个具有多个 redis 实例的分布式系统来分解大量的流式写入，但发现很难清楚地了解事情是如何工作的。从我读到的内容来看，正确配置的集群似乎会自动对“错误实例”上的请求进行分片和重定
负载均衡器后面的 Redis 集群？
我有一个关于redis集群架构的问题。我正在设置一个 Redis 集群，并遵循基本建议:3 硕士3个奴隶有什么方法可以在 Amazon LB、HAProxy、Nginx 等负载均衡器后面配置此集群
傻瓜式 Mysql 集群
那么集群背后的想法是什么？您有多台机器具有相同的数据库副本，您在其中传播读/写？这是正确的吗？这个想法如何运作？当我进行选择查询时，集群会分析哪个服务器的读/写较少并将我的查询指向该服务器？当您
Ubuntu安装部署Kubernetes(k8s)集群
目录一.系统环境二.前言三.Kubernetes 3.1 概述 3.2 Kube

首页

博学

6Ren·AI

商城

java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行