- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章使用IDEA搭建Hadoop开发环境的操作步骤(Window10为例)由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
下载安装包 。
进入官网下载下载hadoop的安装包(二进制文件)http://hadoop.apache.org/releases.html 。
我们这里下载2.10.1版本的,如果想下载更高版本的请先去maven仓库查看是否有对应版本 。
下载好的.gz文件可以直接解压.
winRAR和Bandizip都可以用来解压,但是注意必须以管理员身份打开解压软件,否则会出现解压错误 。
配置JAVA_HOME和HADOOP_HOME 。
我们在环境变量处分别设置JAVA_HOME和HADOOP_HOME 。
然后在Path里添加JAVA和hadoop的二进制文件夹,bin文件夹 。
打开你的cmd,输入以下命令,出现我这样的输出说明配置环境变量成功:
C:\Users\lenovo>hadoop -version 。
HDFS配置 。
来到之前解压的hadoop文件夹下,打开etc/hadoop文件夹 。
现在我们的任务就是修改这些文件当中的代码,务必修改,不然根本无法运行hadoop!! 。
修改 hadoop-env.cmd 。
将configuration处更改为:
1
2
3
4
5
6
|
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs:
//0.0.0.0:9000</value>
</property>
</configuration>
|
修改 hdfs-site.xml 。
将configuration处更改为如下所示,其中 file:///E:/DevTols/hadoop-2.10.1/namespace_logs file:///E:/DevTols/hadoop-2.10.1/data 这两个文件夹一定需要是已经存在的文件夹,你可以在你的hadoop文件夹下随意创建两个文件夹,然后将下面的这两个文件夹的绝对路径替换成你的文件夹,这里我也是创建了两个新的文件夹,hadoop的下载文件夹里本身是没有的.
将configuration标签及内容替换为 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
<configuration>
<property>
<name>dfs.replication</name>
<value>
1
</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:
///E:/DevTols/hadoop-2.10.1/namespace_logs</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:
///E:/DevTols/hadoop-2.10.1/data</value>
</property>
</configuration>
|
修改 mapred-site.xml 。
将下方的%USERNAME%替换成你windows的用户名 用户名可以通过win键查看 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
<configuration>
<property>
<name>mapreduce.job.user.name</name>
<value>%USERNAME%</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.apps.stagingDir</name>
<value>/user/%USERNAME%/staging</value>
</property>
<property>
<name>mapreduce.jobtracker.address</name>
<value>local</value>
</property>
</configuration>
|
注意以上代码有两个地方的%USERNAME%需要替换,不要漏了!!! 。
修改 yarn-site.xml 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
|
<configuration>
<property>
<name>yarn.server.resourcemanager.address</name>
<value>
0.0
.
0.0
:
8020
</value>
</property>
<property>
<name>yarn.server.resourcemanager.application.expiry.interval</name>
<value>
60000
</value>
</property>
<property>
<name>yarn.server.nodemanager.address</name>
<value>
0.0
.
0.0
:
45454
</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.
class
</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.server.nodemanager.remote-app-log-dir</name>
<value>/app-logs</value>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value>/dep/logs/userlogs</value>
</property>
<property>
<name>yarn.server.mapreduce-appmanager.attempt-listener.bindAddress</name>
<value>
0.0
.
0.0
</value>
</property>
<property>
<name>yarn.server.mapreduce-appmanager.client-service.bindAddress</name>
<value>
0.0
.
0.0
</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>
true
</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>-
1
</value>
</property>
<property>
<name>yarn.application.classpath</name>
<value>%HADOOP_CONF_DIR%,%HADOOP_COMMON_HOME%/share/hadoop/common/*,%HADOOP_COMMON_HOME%/share/hadoop/common/lib/*,%HADOOP_HDFS_HOME%/share/hadoop/hdfs/*,%HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/*,%HADOOP_MAPRED_HOME%/share/hadoop/mapreduce/*,%HADOOP_MAPRED_HOME%/share/hadoop/mapreduce/lib/*,%HADOOP_YARN_HOME%/share/hadoop/yarn/*,%HADOOP_YARN_HOME%/share/hadoop/yarn/lib/*</value>
</property>
</configuration>
|
初始化环境变量 。
在windows下的cmd,输入cmd的命令,用于初始化环境变量.
1
|
%HADOOP_HOME%\etc\hadoop\hadoop-env.cmd
|
格式化文件系统 。
这个命令在整个hadoop的配置环境和之后的使用当中务必仅使用一次! 将如下的命令输入到cmd当中进行格式化:
1
|
hadoop namenode -format
|
会弹出一大堆指令,只要看到其中有如下提示,就说明格式化成功 。
INFO common.Storage: Storage directory E:\DevTols\hadoop-2.10.1\namespace_logs has been successfully formatted. 。
向hadoop文件当中注入winutills文件 。
由于windows下想要开启集群,会有一定的bug,因此我们去网站:https://github.com/steveloughran/winutils 下载对应版本的winutils.exe文件。打开这个Github仓库后如下所示:
我们打开hadoop2.8.3/bin,选择其中的winutils.exe文件进行下载,然后将下载的这个文件放入到本地的hadoop/bin文件当中。不然的话,你打开一会儿你的伪分布式集群,马上hadoop就会自动关闭,缺少这两个文件的话.
向hadoop文件当中添加hadoop.dll文件 。
hadoop.dll文件是启动集群时必须的,如果在安装过程中悲催地发现/bin目录下没有该文件(比如博主),就需要去网上自学下载该文件。 进入网页https://github.com/4ttty/winutils, 根据箭头所指步骤下载hadoop.dll文件 。
下载完成后,把文件添加到/bin目录 。
开启hadoop集群 。
在cmd当中输入 。
1
|
%HADOOP_HOME%/sbin/start-all.cmd
|
这样就会跳出来很多黑色的窗口,如下所示:
然后可以使用JPS工具查看目前开启的node有哪些,如果出现namenode,datanode的话说明集群基本上就成功了。如下所示:
打开本地浏览器进行验证 。
我们在浏览器输入localhost:50070,如果能够打开这样的网页,说明hadoop已经成功开启:
IDEA 配置 。
历经千辛万苦我们总算安装完Hadoop了,下面在IDEA上用maven配置hadoop 。
创建MAVEN项目工程 。
打开IDEA之后,里面的参数和项目工程名称随便写,等待工程创建完毕即可。然后我们编辑pom.xml文件 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
<?xml version=
"1.0"
encoding=
"UTF-8"
?>
<project xmlns=
"http://maven.apache.org/POM/4.0.0"
xmlns:xsi=
"http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation=
"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"
>
<modelVersion>
4.0
.
0
</modelVersion>
<groupId>com.atguigu</groupId>
<artifactId>hdfs1205</artifactId>
<version>
1.0
-SNAPSHOT</version>
<properties>
<maven.compiler.source>
8
</maven.compiler.source>
<maven.compiler.target>
8
</maven.compiler.target>
</properties>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>RELEASE</version>
</dependency>
<dependency>
<groupId>org.apache.logging.log4j</groupId>
<artifactId>log4j-core</artifactId>
<version>
2.8
.
2
</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>
2.10
.
1
</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>
2.10
.
1
</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>
2.10
.
1
</version>
</dependency>
</dependencies>
</project>
|
点击右下方的auto-import,自动安装jar包。完成后左侧External Libraries可以看到添加了很多个jar包,如下图 。
这样就说明我们导入maven仓库成功了.
编写log4j.proporties配置文件 。
在src/main/resources目录下创建log4j.proporties文件,编写如下代码 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
log4j.rootLogger=debug, stdout, R
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
# Pattern to output the caller's file name and line number.
log4j.appender.stdout.layout.ConversionPattern=%5p [%t] (%F:%L) - %m%n
log4j.appender.R=org.apache.log4j.RollingFileAppender
log4j.appender.R.File=example.log
log4j.appender.R.MaxFileSize=100KB
# Keep one backup file
log4j.appender.R.MaxBackupIndex=
5
log4j.appender.R.layout=org.apache.log4j.PatternLayout
log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n
|
终于到最后一步了,编写java文件并执行 别忘了先hadoop伪分布式集群!!! cmd中编写%HADOOP_HOME%/sbin/start-all.cmd 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
import
org.apache.hadoop.conf.Configuration;
import
org.apache.hadoop.fs.FileStatus;
import
org.apache.hadoop.fs.FileSystem;
import
org.apache.hadoop.fs.Path;
import
java.net.URI;
public
class
Test {
public
static
void
main(String[] args)
throws
Exception {
FileSystem fs = FileSystem.get(
new
URI(
"hdfs://127.0.0.1:9000"
),
new
Configuration());
FileStatus[] files = fs.listStatus(
new
Path(
"/"
));
for
(FileStatus f : files) {
System.out.println(f);
}
System.out.println(
"Compile Over"
);
}
}
|
这段代码的含义是遍历hadoop文件系统(HDFS)下的root下所有文件的状态,并输出 。
完成以后在cmd输入%HADOOP_HOME%/sbin/start-all.cmd关闭伪集群 。
为了方便可以配置%HADOOP_HOME%/sbin/start-all.cmd和%HADOOP_HOME%/sbin/start-all.cmd 的环境变量,这里不再赘述,留给读者发挥.
到这里Window10下使用IDEA搭建开发环境就完成了,撒花!!! 。
到此这篇关于Window10下使用IDEA搭建Hadoop开发环境的文章就介绍到这了,更多相关IDEA搭建Hadoop开发环境内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! 。
原文链接:https://www.cnblogs.com/gonghr/p/15040088.html 。
最后此篇关于使用IDEA搭建Hadoop开发环境的操作步骤(Window10为例)的文章就讲到这里了,如果你想了解更多关于使用IDEA搭建Hadoop开发环境的操作步骤(Window10为例)的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
为了构建 CentOS 6.5 OSM 切片服务器,我正在寻找一些文档和/或教程。 我试过this one正如我在我的 previous post 中所说的那样但它适用于 Ubuntu 14.04,而
我正在寻找可用于集成任何源代码控制管理系统的通用 git 桥(如 git-svn、git-p4、git-tfs)模板。 如果没有这样的模板,至少有一些关于如何在 git 端集成基本操作的说明(对于其他
1、前言 redis在我们企业级开发中是很常见的,但是单个redis不能保证我们的稳定使用,所以我们要建立一个集群。 redis有两种高可用的方案: High availabilit
简介 前提条件: 确保本机已经安装 VS Code。 确保本机已安装 SSH client, 并且确保远程主机已安装 SSH server。 VSCode 已经安装了插件 C/
为什么要用ELK ELK实际上是三个工具,Elastricsearch + Logstash + Kibana,通过ELK,用来收集日志还有进行日志分析,最后通过可视化UI进行展示。一开始业务量比
在日常办公当中,经常会需要一个共享文件夹来存放一些大家共享的资料,为了保证文件数据的安全,最佳的方式是公司内部服务器搭建FTP服务器,然后分配多个用户给相应的人员。今天给大家分享FileZilla搭
最近由于业务需要,开始进行 Flutter 的研究,由于 Flutter 的环境搭建在官网上有些细节不是很清楚,笔者重新整理输出 1. 配置镜像 由于在国内访问 Flutter
目录 1. 安装go软件包 2. 配置系统变量 3. 安装git 4. 设置go代理 5. 下载gin框架 6. 创建项目 7.
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任
上篇文章给大家介绍了使用docker compose安装FastDfs文件服务器的实例详解 今天给大家介绍如何使用 docker compose 搭建 fastDFS文件服务器,内容详情如下所示:
目录 1.创建Maven 2.Maven目录和porm.xml配置 3.配置Tomcat服务器 1.创建Maven
laravel 官方提供 homestead 和 valet 作为本地开发环境,homestead 是一个官方预封装的 vagrant box,也就是一个虚拟机,但是跟 docker 比,它占用体积
这个tutorial显示了 Razor Pages 在 Asp.Net Core 2 中的实现。但是,当我运行 CLI 命令时: dotnet aspnet-codegenerator razorp
我创建了一个单独的类库项目来存储数据库上下文和模型类。在同一解决方案中,我创建了一个 ASP.NET MVC 项目并引用了类库项目,并在项目的 Web.config 文件中包含了数据库上下文的连接字符
关于代码托管,公司是基于Gitlab自建的,它功能全而强大,但是也比较重,我个人偏向于开源、小巧、轻便、实用,所以就排除了Github,在Gogs和Gitea中选者。Gogs在Github有38
目录 1、高可用简介 1.1 高可用整体架构 1.2 基于 QJM 的共享存储系统的数据同步机制分析 1.3 NameNode 主
Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,它已经在该站点运行超过两年半了。Igor 将源代码以类BSD许可证的形式发布。 在高并发连接的情况
对于我们的 ASP.NET Core 项目,我们使用包管理器控制台中的 Scaffold-DbContext 搭建现有数据库。 每次我们做脚手架时,上下文类与所有实体一起生成,它包含调用 option
我正在使用 .net 核心 2.0。我已经安装了以下 nuget 包:1: Microsoft.AspNetCore.All2: Microsoft.EntityFrameworkCore.Tools
我正在使用 NetBeans 及其 RAD 开发功能开发 JEE6 JSF 应用程序。我想使用脚手架来节省更新 Controller 和模型 View 的时间。 OneToMany 关联在 View
我是一名优秀的程序员,十分优秀!