gpt4 book ai didi

eclipse - 在 MapReduce 模式下,来自 Jar 文件而非 Eclipse 的 PIG 脚本统计信息始终为零 (0)

转载 作者:可可西里 更新时间:2023-11-01 14:58:06 24 4
gpt4 key购买 nike

我正在使用 hadoop2.2 和 pig-0.12

我已经使用 MapReduce 模式创建了用于在 JAVA 应用程序中调用 PIG 脚本的 Maven 项目。我的代码在 Eclipse 中运行良好(它显示正确的统计信息)。

但是当我构建到 JAR 文件中时,执行相同的作业获取统计信息始终显示为零,但生成的输出文件具有正确的结果。

下面是我在终端窗口中运行 PIG 脚本应用程序时实际得到的响应。

Input(s):
Successfully read 0 records from: "/user/hdfs/input/100RecordsDataInput.csv"

Output(s):
Successfully stored 0 records in: "hdfs:/user/hdfs/out/980"

Counters:
Total records written : 0
Total bytes written : 0
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0

我不知道我做错了什么。

这是我的 POM.xml 文件。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<repositories>
<repository>
<id>cloudera</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>

<groupId>PIGScript</groupId>
<artifactId>PIGScript_Sample</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>

<name>PIGScript_Sample</name>
<url>http://maven.apache.org</url>

<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>

<dependencies> <!-- <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId>
<version>1.0.0-cdh5.4.4</version> </dependency> <groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId> <version>1.0.0-cdh5.4.4</version> </dependency> -->


<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0-cdh5.4.4</version>
</dependency>

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.6.0-cdh5.4.4</version>
</dependency>

<dependency>
<groupId>commons-httpclient</groupId>
<artifactId>commons-httpclient</artifactId>
<version>3.1</version>
</dependency>

<dependency>
<groupId>org.apache.pig</groupId>
<artifactId>pig</artifactId>
<version>0.12.0-cdh5.4.4</version>
</dependency>

<dependency>
<groupId>org.antlr</groupId>
<artifactId>antlr-runtime</artifactId>
<version>3.5.2</version>
</dependency>


<dependency>
<groupId>joda-time</groupId>
<artifactId>joda-time</artifactId>
<version>2.8.2</version>
</dependency>

<dependency>
<groupId>dk.brics.automaton</groupId>
<artifactId>automaton</artifactId>
<version>1.11-8</version>
</dependency>

<dependency>
<groupId>org.apache.pig</groupId>
<artifactId>piggybank</artifactId>
<version>0.12.0</version>
</dependency>

<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.11</version>
<scope>test</scope>
</dependency>
</dependencies>

<build>
<resources>
<resource>
<directory>src/main/resources</directory>
</resource>
</resources>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>2.0.2</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<configuration>
<archive>
<manifest>
<addClasspath>true</addClasspath>
<classpathPrefix>lib/</classpathPrefix>
<mainClass>PIGScript.PIGScript_Sample.PIGScript</mainClass>
</manifest>
</archive>
</configuration>
</plugin>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<archive>
<manifest>
<addClasspath>true</addClasspath>
<mainClass>PIGScript.PIGScript_Sample.PIGScript</mainClass>
</manifest>
</archive>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
</plugin>
</plugins>
</build>
</project>

这是正常现象还是我错过了什么?请告诉我。

更新:

我注意到当我在 Eclipse 中执行作业时,历史 UI (IPAddress:8088) 中提供了新的 MapReduce 条目,但是当我在 JAR 文件中执行相同类型的作业时,历史 UI 中没有新条目。我在谷歌看到如果以本地模式运行的 PIG 脚本不产生统计信息,那是来自以本地模式运行的 JAR 文件 PIG 脚本吗?我如何确定作业是以本地模式还是以 MapReduce 模式运行?

最佳答案

我已经更改了 POM 文件中的以下部分

 <plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<archive>
<manifest>
<addClasspath>true</addClasspath>
<mainClass>PIGScript.PIGScript_Sample.PIGScript</mainClass>
</manifest>
</archive>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
</plugin>

有了新修改的插件

<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-dependency-plugin</artifactId>
<executions>
<execution>
<id>copy</id>
<phase>install</phase>
<goals>
<goal>copy-dependencies</goal>
</goals>
<configuration>
<outputDirectory>${project.build.directory}/lib</outputDirectory>
</configuration>
</execution>
</executions>
</plugin>

使用 clean install maven 命令,现在一切正常,它显示正确的统计信息,希望一些依赖 jar 文件以前没有更新。所以只有它在本地模式下运行。我不是 Hadoop 专家,只是因为假设。

关于eclipse - 在 MapReduce 模式下,来自 Jar 文件而非 Eclipse 的 PIG 脚本统计信息始终为零 (0),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32333954/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com