hadoop伪分布式和完全分布式配置-6ren

hadoop伪分布式和完全分布式配置

转载作者：知者更新时间：2024-03-13 08:10:03

28

4

systemctl stop firewalld.service 防火墙的关闭

命令 hadoop dfsadmin -safemode get 查看安全模式状态
命令 hadoop dfsadmin -safemode enter 进入安全模式状态
命令 hadoop dfsadmin -safemode leave 离开安全模式

jdk配置

rpm -qa | grep jdk 查看原有openJDK
rpm -e --nodeps 移除原有openJDK
vim /etc/profile 配置全局jdk、hadoop的环境变量

export JAVA_HOME=/opt/jdk
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin/

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

ssh免密配置（两种方法-第一种方法简单易记）

第一种方法：

创建ssh的key密钥（三台都要）

ssh-keygen -t rsa

相互传输ssh的key

分别将key传给自己和另两台主机：

三台主机都分开运行以下三条命令

命令：
cd .ssh
ssh-copy-id master
ssh-copy-id slave0
ssh-copy-id slave00

测试免密登录：ssh+机名

第二种方法：

ssh localhost 测试密码登录
设置免密登录执行一下三条命令

ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

ssh localhost 再次登录（免密）

hadoop伪分布式配置

配置core-site.xml文件

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>
	<property>
		<name>hadoop.tem.dir</name>
		<value>/opt/hadoop/tmp</value>
	</property>
</configuration>

配置hdfs-site.xml文件

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///opt/hadoop/data/namenode</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///opt/hadoop/data/datanode</value>
	</property>
</configuration>

配置hadoop-env.sh文件JDK路径

export JAVA_HOME=/opt/jdk

hdfs namenode -format 格式化

hadoop完全分布式配置(三台虚拟机)

jdk配置-参考伪分布式1.(删除原有openJDK)

参考上面伪分布配置jdk

配置hostname文件和hosts文件

(hostname文件添加本机机名 hosts文件删除原有再添加三台机子的IP+机名)

给三台虚拟机配置ssh免密登录

参考上面伪分布配置免密登录

在主机上测试是否能连接上其他两台主机
ssh +主机名(免密)

配置hadoop文件

在hadoop-env.sh文件mapred-env.sh文件yarn-env.sh中修改或添加jdk的路径(yarn-env.sh要添加不修改)

配置core-site.xml文件

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://主机名:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop/tmp</value>
        </property>
</configuration>

配置hdfs-site.xml文件

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///opt/hadoop/data/namenode</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///opt/hadoop/data/datanode</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>

配置mapred-site.xml文件(后缀.template)

<configuration> 
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value> 
        </property> 
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>主机名:10020</value>
        </property> 
        <property> 
                <name>mapreduce.hobhistory.webapp.address</name>
                <value>主机名:19888</value>
        </property>  
</configuration>

配置yarn-site.xml文件

<configuration>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

配置slaves文件

添加后两台主机的主机名(本机名为bigdata01)

例如：
bigdata02
bigdata03

将已经配置好的hadoop传输到其他两台主机上(scp命令)

scp -r /opt/hadoop root@主机名:/opt/ (传输hadoop整个文件夹)

传输已经配置好的全局变量/etc/profile到其他两台主机上(传输到其他两台主机上后需要自行生效才能生效source /etc/profile)

scp /etc/profile root@主机名:/etc/

在第一台主机上hadoop文件夹中创建data文件夹再在data文件夹中创建namenode和datanode(tmp文件夹可以自己创建也可以格式化后自动创建)

mkdir 命令创建

格式化

hdfs namenode -format

启动hadoop集群

start-all.sh

查看集群

第一台4个进程

第二台3个进程(datanode)

第三台3个进程(datanode)

测试是否能上次hdfs

hdfs dfs -mkdir /input
hdfs dfs -put /opt/hadoop/etc/hadoop /input

28

4

0

文章推荐： centos7配置hive与spark-sql交互

文章推荐：如何打造一篇分析报告

http - 伪/冒号标题字段的用途
如标题所示，我正在寻找有关伪/冒号 header 字段用途的一些信息，即我想知道为什么我们有第二种类型的 header 字段... 另外 - 我知道在 http2 中使用伪/冒号 header 字段代
深入解析PHP中的(伪)多线程与多进程
(伪)多线程：借助外力利用WEB服务器本身的多线程来处理，从WEB服务器多次调用我们需要实现多线程的程序。 QUOTE: 我们知道PHP本身是不支持多线程的, 但是我们的WEB服务器是支持多线程的
random - 如何实现(伪)硬件随机数生成器
您如何在 HDL (verilog) 中实现硬件随机数生成器？需要考虑哪些选项？这个问题是在self-answer之后格式。鼓励添加答案和更新。最佳答案正如摩根的回答中所指出的，这只会产生一个
css - 伪 :before outside of div
我写了这个CSS: div { width: 500px; height:150px; margin-left:150px; background: lightblue; } div:
java - 将“伪”时间戳存储到数据库中
这是我要解决的问题：从数据库A读取一个字符串，将该字符串转换为Date对象，将Date对象存储到数据库B中。例）数据库A：从数据库A读入日期字符串“ 2015-03-08 02:00:00”，转换为
c++ - 如何在(伪？)运行时迭代可变参数模板包？
我想创建 std::fscanf() 的 sibling (我知道这是一个 C 函数)。所以，我的界面是这样的: template std::size_t ts_scanf(is, format,
sql - 伪 IF/Case 帮助
运行 PostgreSQL 7.x(是的，我正在升级) 问题: 如果没有返回数据，我有三到四个字段需要设置。正在考虑这样的事情 SELECT CASE WHEN default_fie
javascript - 重复无效的用户输入，直到其有效(伪)
出于某种原因，我很难在 JS 中为我的游戏执行以下代码: 假设我们要求用户在棋盘上移动一个棋子。他们可以做的位置是位置A、位置B或位置C。每个位置一次只能容纳一件。否则为无效移动。第一个用户决定
c++ - 霍夫曼编码 - 伪 EOF
我已经毫无问题地编写了霍夫曼树的代码，但现在我希望在文件和树中添加伪 EOF，以便我知道何时停止从文件中读取。我完全掌握了伪 EOF 的概念。我还了解到没有 ASCII 值 > 255 的字符。我
javascript - 伪 :after class 的切换类
给定一个按钮 ::after 当被触发时，伪 :after 类需要有一个类 search-active 切换，为按钮设置背景颜色 .primary .search:after, .primary
自动编号前的 CSS 伪 - 缩进
我想让第一行的文本像第二行一样缩进 (50px)。有什么办法吗？非常感谢! body{ counter-reset: h2counter; } h1{ counter-reset: h2counter
不同继承之前/之后的 CSS 伪
:before 或 :after 这样的伪元素是否可以从父元素的不同属性继承值？在我的例子中，我有一个第三方组件设置其元素运行时的背景颜色...我需要继承该颜色并将其设置为伪元素的边框颜色。最佳答
matlab - Matlab中并行循环中的不同(伪)随机数
在并行循环中请求随机数总是返回相同的伪随机数。我怎样才能避免这种情况？ % workers initialization: if matlabpool('size') == 0 matlabp
c# - 伪 IPv4 正则表达式
假设最大IP可以包含每个“点”括号中的最大数量999，即999.999.999.999 是最大的可用值。我已经在计算器中检查了正则表达式 ([0-9]+.){3}[0-9]。那么，为什么程序抛出运行
c - 很好的介绍(伪)随机数生成
我对随机数生成的概念非常陌生，我需要为用c编写的工作创建自己的算法（内置的随机数生成器对我不起作用）。有人能给我介绍一个很好的主题，这样我就可以理解这个概念了吗？到目前为止，我所发现的一切似乎都是用
algorithm - 寻找一种算法以(伪)随机顺序吐出一系列数字
假设我有一个数字序列:{n, n+1, n+2, ... n+m} 在不提前存储数字的情况下，我想创建一个函数 f()，给定序列 {1,2,3,...m} 将以随机(或至少伪)的方式吐出原始集合随机)
tcp - 伪 Tcp channel
什么是伪 tcp channel ，如何实现？最佳答案伪 TCP 是一种协议(protocol)，它实现了 TCP 的一些思想，以通过不可靠的、基于数据包的接口(interface)提供可靠的数据
python - 以(伪)随机顺序从大列表中高效地生成元素
我正在尝试展开一些嵌套循环，以牺牲内存为代价(可能)获得更好的性能。在我的场景中，我最终会得到一个包含大约 3 亿个元素(元组)的列表，我必须以(或多或少)随机顺序产生这些元素。在这个数量级上，ra
php - 生成(伪)随机字母数字字符串
如何在 PHP 中生成(伪)随机字母数字字符串，例如:'d79jd8c'？最佳答案首先创建一个包含所有可能字符的字符串: $characters = 'abcdefghijklmnopqrstu
c++ - 如何获得两个(伪)随机但彼此不同的容器迭代器/元素？
我有一段代码可以为玩家生成迷你任务。这很简单，要获得两个不同的点(起点和终点)，我有一个如下所示的算法: std::vector missions; missions.push_bac

首页

博学

6Ren·AI

商城