使用Maven搭建Hadoop开发环境-6ren

使用Maven搭建Hadoop开发环境

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章使用Maven搭建Hadoop开发环境由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

关于Maven的使用就不再啰嗦了，网上很多，并且这么多年变化也不大，这里仅介绍怎么搭建Hadoop的开发环境.

1. 首先创建工程。

。

复制代码代码如下:

  mvn archetype:generate -DgroupId=my.hadoopstudy -DartifactId=hadoopstudy -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false 

。

2. 然后在pom.xml文件里添加hadoop的依赖包hadoop-common, hadoop-client, hadoop-hdfs，添加后的pom.xml文件如下。

 
    ? 
   
         <project xmlns:xsi= 
         "http://www.w3.org/2001/XMLSchema-instance" 
         xmlns= 
         "http://maven.apache.org/POM/4.0.0" 
        
         xsi:schemaLocation= 
         "http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd" 
         > 
        
         <modelVersion> 
         4.0 
         . 
         0 
         </modelVersion> 
        
         <groupId>my.hadoopstudy</groupId> 
        
         <artifactId>hadoopstudy</artifactId> 
        
         <packaging>jar</packaging> 
        
         <version> 
         1.0 
         -SNAPSHOT</version> 
        
         <name>hadoopstudy</name> 
        
         <url>http: 
         //maven.apache.org</url> 
        
         <dependencies> 
        
         <dependency> 
        
         <groupId>org.apache.hadoop</groupId> 
        
         <artifactId>hadoop-common</artifactId> 
        
         <version> 
         2.5 
         . 
         1 
         </version> 
        
         </dependency> 
        
         <dependency> 
        
         <groupId>org.apache.hadoop</groupId> 
        
         <artifactId>hadoop-hdfs</artifactId> 
        
         <version> 
         2.5 
         . 
         1 
         </version> 
        
         </dependency> 
        
         <dependency> 
        
         <groupId>org.apache.hadoop</groupId> 
        
         <artifactId>hadoop-client</artifactId> 
        
         <version> 
         2.5 
         . 
         1 
         </version> 
        
         </dependency> 
        
         <dependency> 
        
         <groupId>junit</groupId> 
        
         <artifactId>junit</artifactId> 
        
         <version> 
         3.8 
         . 
         1 
         </version> 
        
         <scope>test</scope> 
        
         </dependency> 
        
         </dependencies> 
        
         </project>

3. 测试。

3.1 首先我们可以测试一下hdfs的开发，这里假定使用上一篇Hadoop文章中的hadoop集群，类代码如下。

 
    ? 
   
         package 
         my.hadoopstudy.dfs; 
        
         import 
         org.apache.hadoop.conf.Configuration; 
        
         import 
         org.apache.hadoop.fs.FSDataOutputStream; 
        
         import 
         org.apache.hadoop.fs.FileStatus; 
        
         import 
         org.apache.hadoop.fs.FileSystem; 
        
         import 
         org.apache.hadoop.fs.Path; 
        
         import 
         org.apache.hadoop.io.IOUtils; 
        
         import 
         java.io.InputStream; 
        
         import 
         java.net.URI; 
        
         public 
         class 
         Test { 
        
         public 
         static 
         void 
         main(String[] args)  
         throws 
         Exception { 
        
         String uri =  
         "hdfs://9.111.254.189:9000/" 
         ; 
        
         Configuration config =  
         new 
         Configuration(); 
        
         FileSystem fs = FileSystem.get(URI.create(uri), config); 
        
         // 列出hdfs上/user/fkong/目录下的所有文件和目录 
        
         FileStatus[] statuses = fs.listStatus( 
         new 
         Path( 
         "/user/fkong" 
         )); 
        
         for 
         (FileStatus status : statuses) { 
        
         System.out.println(status); 
        
         } 
        
         // 在hdfs的/user/fkong目录下创建一个文件，并写入一行文本 
        
         FSDataOutputStream os = fs.create( 
         new 
         Path( 
         "/user/fkong/test.log" 
         )); 
        
         os.write( 
         "Hello World!" 
         .getBytes()); 
        
         os.flush(); 
        
         os.close(); 
        
         // 显示在hdfs的/user/fkong下指定文件的内容 
        
         InputStream is = fs.open( 
         new 
         Path( 
         "/user/fkong/test.log" 
         )); 
        
         IOUtils.copyBytes(is, System.out,  
         1024 
         ,  
         true 
         ); 
        
         } 
        
         }

3.2 测试MapReduce作业。

测试代码比较简单，如下:

 
    ? 
   
         package 
         my.hadoopstudy.mapreduce; 
        
         import 
         org.apache.hadoop.conf.Configuration; 
        
         import 
         org.apache.hadoop.fs.Path; 
        
         import 
         org.apache.hadoop.io.IntWritable; 
        
         import 
         org.apache.hadoop.io.Text; 
        
         import 
         org.apache.hadoop.mapreduce.Job; 
        
         import 
         org.apache.hadoop.mapreduce.Mapper; 
        
         import 
         org.apache.hadoop.mapreduce.Reducer; 
        
         import 
         org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
        
         import 
         org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
        
         import 
         org.apache.hadoop.util.GenericOptionsParser; 
        
         import 
         java.io.IOException; 
        
         public 
         class 
         EventCount { 
        
         public 
         static 
         class 
         MyMapper  
         extends 
         Mapper<Object, Text, Text, IntWritable>{ 
        
         private 
         final 
         static 
         IntWritable one =  
         new 
         IntWritable( 
         1 
         ); 
        
         private 
         Text event =  
         new 
         Text(); 
        
         public 
         void 
         map(Object key, Text value, Context context)  
         throws 
         IOException, InterruptedException { 
        
         int 
         idx = value.toString().indexOf( 
         " " 
         ); 
        
         if 
         (idx >  
         0 
         ) { 
        
         String e = value.toString().substring( 
         0 
         , idx); 
        
         event.set(e); 
        
         context.write(event, one); 
        
         } 
        
         } 
        
         } 
        
         public 
         static 
         class 
         MyReducer  
         extends 
         Reducer<Text,IntWritable,Text,IntWritable> { 
        
         private 
         IntWritable result =  
         new 
         IntWritable(); 
        
         public 
         void 
         reduce(Text key, Iterable<IntWritable> values, Context context)  
         throws 
         IOException, InterruptedException { 
        
         int 
         sum =  
         0 
         ; 
        
         for 
         (IntWritable val : values) { 
        
         sum += val.get(); 
        
         } 
        
         result.set(sum); 
        
         context.write(key, result); 
        
         } 
        
         } 
        
         public 
         static 
         void 
         main(String[] args)  
         throws 
         Exception { 
        
         Configuration conf =  
         new 
         Configuration(); 
        
         String[] otherArgs =  
         new 
         GenericOptionsParser(conf, args).getRemainingArgs(); 
        
         if 
         (otherArgs.length <  
         2 
         ) { 
        
         System.err.println( 
         "Usage: EventCount <in> <out>" 
         ); 
        
         System.exit( 
         2 
         ); 
        
         } 
        
         Job job = Job.getInstance(conf,  
         "event count" 
         ); 
        
         job.setJarByClass(EventCount. 
         class 
         ); 
        
         job.setMapperClass(MyMapper. 
         class 
         ); 
        
         job.setCombinerClass(MyReducer. 
         class 
         ); 
        
         job.setReducerClass(MyReducer. 
         class 
         ); 
        
         job.setOutputKeyClass(Text. 
         class 
         ); 
        
         job.setOutputValueClass(IntWritable. 
         class 
         ); 
        
         FileInputFormat.addInputPath(job,  
         new 
         Path(otherArgs[ 
         0 
         ])); 
        
         FileOutputFormat.setOutputPath(job,  
         new 
         Path(otherArgs[ 
         1 
         ])); 
        
         System.exit(job.waitForCompletion( 
         true 
         ) ?  
         0 
         :  
         1 
         ); 
        
         } 
        
         }

运行“mvn package”命令产生jar包hadoopstudy-1.0-SNAPSHOT.jar，并将jar文件复制到hadoop安装目录下。

这里假定我们需要分析几个日志文件中的Event信息来统计各种Event个数，所以创建一下目录和文件。

/tmp/input/event.log.1 /tmp/input/event.log.2 /tmp/input/event.log.3 。

因为这里只是要做一个列子，所以每个文件内容可以都一样，假如内容如下。

JOB_NEW ... JOB_NEW ... JOB_FINISH ... JOB_NEW ... JOB_FINISH ... 。

然后把这些文件复制到HDFS上。

。

复制代码代码如下:

$ bin/hdfs dfs -put /tmp/input /user/fkong/input

。

运行mapreduce作业。

。

复制代码代码如下:

  $ bin/hadoop jar hadoopstudy-1.0-SNAPSHOT.jar my.hadoopstudy.mapreduce.EventCount /user/fkong/input /user/fkong/output 

。

查看执行结果。

。

复制代码代码如下:

$ bin/hdfs dfs -cat /user/fkong/output/part-r-00000

。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：http://www.kongxx.info/blog/?p=186 。

最后此篇关于使用Maven搭建Hadoop开发环境的文章就讲到这里了,如果你想了解更多关于使用Maven搭建Hadoop开发环境的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：详解MyBatis Generator自动创建代码(dao,mapping,poji)

文章推荐：抖音女生精选的高冷气质头像睡醒的那一瞬间我真的太想你

文章推荐：绝美欧美风气质的空间小清新壁纸寥寥几眼也抵山河万色

文章推荐： Java项目安全处理方法

Grails 环境
我在文档中找不到答案，所以我在这里问。在 Grails 中，当您创建应用程序时，您会默认获得生产、开发等环境。如果您想为生产构建 WAR，您可以运行以下任一命令: grails war 或者 gr
Sitecore 环境
我们组织的网站正在迁移到 Sitecore CMS，但我们正在努力以某种方式为开发人员 (4)、设计师 (4)、QA 人员 (3)、作者 (10-15) 和批准者 (4-10) 设置环境在他们可以独立
CVSROOT 环境
如何在WinCVS中设置CVSROOT环境变量？最佳答案简单的回答是:您不需要。 CVSROOT 环境变量被高估了。 CVS(NT) 只会在确定存储库连接字符串的所有其他方法都已用尽时才使用它。人
haskell 环境
我最近完成了“learnyouahaskell”一书，现在我想通过构建 yesod 应用程序来应用我所学到的知识。但是我不确定如何开始。关于如何设置 yesod 项目似乎有两个选项。一是Stack
C# 环境
在这一章中，我们将讨论创建 C# 编程所需的工具。我们已经提到 C# 是 .Net 框架的一部分，且用于编写 .Net 应用程序。因此，在讨论运行 C# 程序的可用工具之前，让我们先了解一下 C#
03、Ruby 环境
运行Ruby 代码需要配置 Ruby 编程语言的环境。本章我们会学习到如何在各个平台上配置安装 Ruby 环境。各个平台上安装 Ruby 环境 Linux/Unix 上的 Ruby 安装
ide - 最佳移动应用程序开发工具/环境？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
r - 返回和保存时如何清理函数闭包(环境)？
我有一个这样的计算(请注意，这只是非常简化的、缩减版的、最小的可重现示例!): computation <- function() # simplified version! { # a lo
R 环境/哈希表随着增长到数百万而变慢
我使用环境作为哈希表。键是来自常规文本文档的单词，值是单个整数(某个其他结构的索引)。当我加载数百万个元素时，更新和查找都变慢了。下面是一些代码来显示行为。看起来从一开始的行为在 O(n) 中比在
可重现的 saveRDS 环境
我正在构建一个 R 包并使用 data-raw和 data存储预定义的库 RxODE楷模。这非常有效。然而，由此产生的.rda文件每代都在变化。某些模型包含 R 环境，并且序列化似乎包含“创建时间”
Xcode 环境——快捷方式和缩进实用程序
(不确定问题是否属于这里，所以道歉是为了) 我很喜欢 Sublime Text ，我经常发现 Xcode 缺少一些文本/数据处理的东西。我可能有不止一个问题—— 'Command +/' 注释代码但没
Symfony - 仅在开发中定义路线。环境
我正在使用 SF2，并且创建了一些有助于项目调试的路由: widget_debug_page: path: /debug/widget/{widgetName} defau
django - conda 环境
我创建了一个名为 MyDjangoEnv 的 conda 环境。当我尝试使用 source activate MyDjangoEnv 激活它时，出现错误: No such file or direct
javascript - Cordova 环境
有没有办法区分从本地机器运行的包和从 Cordova 应用商店安装的包？例如，我想像这样设置一个名为“evn”的 JavaScript 变量: if(cordovaLocal){ env = 'de
足够困难地学习的 C 环境
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
Java 初学者网络开发工具包/环境
我的任务是使用 java 和 mysql 开发一个交互式网站:使用 servlet 检索和处理数据，applet 对数据客户端进行特殊处理，并处理客户端对不同数据 View 的请求。对于使用 jav
Linux 环境 -i 奇怪
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
R:列表中的快速哈希搜索(环境)
我想进行非常快速的搜索，看来使用哈希(通过环境)是最好的方法。现在，我得到了一个在环境中运行的示例，但它没有返回我需要的内容。这是一个例子: a system.time(benchEnv(), g
Windows 环境 OpenACC
我想开始开发 OpenACC 程序，我有几个问题要问:是否可以在 AMD gpu 上执行 OpenACC 代码？如果是这样，我正在寻找适用于 Windows 环境的编译器。我花了将近一个小时什么也没
Linux 环境。让机器变慢
这可能看起来很奇怪，但是有没有办法制作机器(linux/unix 风格 - 最好是 RHEL)。我需要控制机器的速度以确保代码在非常慢的系统上工作并确定正确的断点(在时间方面)。我能做到的一种方法是

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

使用Maven搭建Hadoop开发环境