eclipse - 在 MapReduce 模式下，来自 Jar 文件而非 Eclipse 的 PIG 脚本统计信息始终为零 (0)-6ren

eclipse - 在 MapReduce 模式下，来自 Jar 文件而非 Eclipse 的 PIG 脚本统计信息始终为零 (0)

转载作者：可可西里更新时间：2023-11-01 14:58:06

我正在使用 hadoop2.2 和 pig-0.12。

我已经使用 MapReduce 模式创建了用于在 JAVA 应用程序中调用 PIG 脚本的 Maven 项目。我的代码在 Eclipse 中运行良好(它显示正确的统计信息)。

但是当我构建到 JAR 文件中时，执行相同的作业获取统计信息始终显示为零，但生成的输出文件具有正确的结果。

下面是我在终端窗口中运行 PIG 脚本应用程序时实际得到的响应。

Input(s):
Successfully read 0 records from: "/user/hdfs/input/100RecordsDataInput.csv"

Output(s):
Successfully stored 0 records in: "hdfs:/user/hdfs/out/980"

Counters:
Total records written : 0
Total bytes written : 0
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0

我不知道我做错了什么。

这是我的 POM.xml 文件。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>

    <groupId>PIGScript</groupId>
    <artifactId>PIGScript_Sample</artifactId>
    <version>0.0.1-SNAPSHOT</version>
    <packaging>jar</packaging>

    <name>PIGScript_Sample</name>
    <url>http://maven.apache.org</url>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>      <!-- <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> 
            <version>1.0.0-cdh5.4.4</version> </dependency> <groupId>org.apache.hbase</groupId> 
            <artifactId>hbase-server</artifactId> <version>1.0.0-cdh5.4.4</version> </dependency> -->


        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.6.0-cdh5.4.4</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.0-cdh5.4.4</version>
        </dependency>

        <dependency>
            <groupId>commons-httpclient</groupId>
            <artifactId>commons-httpclient</artifactId>
            <version>3.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.pig</groupId>
            <artifactId>pig</artifactId>
            <version>0.12.0-cdh5.4.4</version>
        </dependency>

        <dependency>
            <groupId>org.antlr</groupId>
            <artifactId>antlr-runtime</artifactId>
            <version>3.5.2</version>
        </dependency>


        <dependency>
            <groupId>joda-time</groupId>
            <artifactId>joda-time</artifactId>
            <version>2.8.2</version>
        </dependency>

        <dependency>
            <groupId>dk.brics.automaton</groupId>
            <artifactId>automaton</artifactId>
            <version>1.11-8</version>
        </dependency>

        <dependency>
            <groupId>org.apache.pig</groupId>
            <artifactId>piggybank</artifactId>
            <version>0.12.0</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
    </dependencies>

    <build>
        <resources>
            <resource>
                <directory>src/main/resources</directory>
            </resource>
        </resources>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.0.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib/</classpathPrefix>
                            <mainClass>PIGScript.PIGScript_Sample.PIGScript</mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <mainClass>PIGScript.PIGScript_Sample.PIGScript</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

这是正常现象还是我错过了什么？请告诉我。

更新:

我注意到当我在 Eclipse 中执行作业时，历史 UI (IPAddress:8088) 中提供了新的 MapReduce 条目，但是当我在 JAR 文件中执行相同类型的作业时，历史 UI 中没有新条目。我在谷歌看到如果以本地模式运行的 PIG 脚本不产生统计信息，那是来自以本地模式运行的 JAR 文件 PIG 脚本吗？我如何确定作业是以本地模式还是以 MapReduce 模式运行？

最佳答案

我已经更改了 POM 文件中的以下部分

 <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <mainClass>PIGScript.PIGScript_Sample.PIGScript</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
            </plugin>

有了新修改的插件

<plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-dependency-plugin</artifactId>
                <executions>
                    <execution>
                        <id>copy</id>
                        <phase>install</phase>
                        <goals>
                            <goal>copy-dependencies</goal>
                        </goals>
                        <configuration>
                            <outputDirectory>${project.build.directory}/lib</outputDirectory>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

使用 clean install maven 命令，现在一切正常，它显示正确的统计信息，希望一些依赖 jar 文件以前没有更新。所以只有它在本地模式下运行。我不是 Hadoop 专家，只是因为假设。

关于eclipse - 在 MapReduce 模式下，来自 Jar 文件而非 Eclipse 的 PIG 脚本统计信息始终为零 (0)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32333954/

文章推荐： python - centos 5 中的 Ambari 2.0 安装

文章推荐： javascript - Google Adsense 3 个小问题

文章推荐： jquery - 由 jQuery 设置的填充会更改元素的宽度

文章推荐： r - 如何在 SparkR 中读取 json/csv 文件？

spring-boot - 如果在同一个 Jar 中，为什么 Jars in Jars 不能看到 Jars 中其他 Jars 的内容？
tl;博士:我们的 Spring Boot jar 中的类似乎可以看到捆绑的 jar 中的类，但它们的内容似乎无法看到。为什么？我们的主要产品是一个网络应用程序，但所有的业务逻辑都集中在一个核心 m
jar - MR-Jars 可以覆盖其他 jar 中的类吗？
我有一个适用于 Java 8 的 jar。我想创建一个新 jar，它将是多版本 JAR 但为空，只有 META-INF/versions 中的“修补”类. 我想要一个单独的 jar，这样人们就可以在
java - 将 API .JAR 合并到我的 .JAR 应用程序中时遇到问题。 JAR 中的 JAR
免责声明: 在我得到“这个问题已经被问了 1000 次”的标准之前，让我说，是的，我知道。我读了又读又读。看了 JarJar 和 One-JAR，但问题是:我是自学成才的，只有几个月的经验，而且我不熟
Java Jar 将多个 jar 组合成一个可执行 Jar
我知道要组合多个 jar 并创建一个可执行 jar，我需要使用像 OneJar 这样的工具如果我不想解压相关的 jar 。 OneJar 有自己的自定义类加载器，可以在关联的 jar 中找到所需的类并
java - 如何在 Eclipse IDE 项目中将 a.jar、b.jar、c.jar、d.jar 合并到一个名为 e.jar 的 jar 中？你能告诉我们执行此操作的步骤吗？
在我的项目中，我使用许多 jar 文件来支持该项目。随着 jar 文件数量的增加，我想将所有 jar 文件移动到一个 jar 中并利用它。您能给我提供有用的链接吗？可以帮助我做到这一点。最佳答案有
jar - 删除目录中的重复 jar
我有一个脚本可以删除目录中的低版本 jars 文件。 #!/bin/bash #Script to remove lower version jar files. for PREFIX in `ls
jar - 如何以编程方式重新启动 jar？
可执行 jar 文件可以自行重启吗？例如，在用户做出一些选择后，程序会说“重新启动应用程序？”并且用户单击"is"，然后 jar 关闭并自行重新启动。最佳答案需要重新启动应用程序是糟糕设计的标志。
jar - .jar 文件根本打不开
过去两年我一直有这个问题。我有一个从 Internet 下载的 .jar 文件。它应该是一个魔方计时器。当我双击这个 .jar 文件时，没有任何反应。如果我将 .jar 文件设置为使用 java.
jar - Gradle项目依赖项未引用SNAPSHOT jar
我正在尝试在多项目Gradle构建中创建一个胖jar文件，如下所示: root +-- project1 +-- project2 project1提供了基本功能，然后project2将其用于
java - 如何以 jar 格式获得一个包含该 jar 内依赖项的最终 jar？
我需要 Maven 的配置，其中项目内的所有库都以 jar 格式保存在最终的 jar 中...所以我需要在最终的 jar 中包含 jar。为此我只能使用maven。我已经尝试过像 one-jar 这样
java - JAR、Fat JAR、可执行 JAR 之间的区别
JAR、Fat JAR 和 Executable JAR 之间有什么区别？它们是如何从命令行和 gradle.build 任务创建的(如果是 gradle 项目)？除了上面提到的以外，还有其他的JA
java - Maven 插件创建可执行 jar 与未解压的依赖项 (jar with jars)
我阅读了很多构建具有依赖项的可执行 jar 的解决方案(maven 阴影插件、maven 依赖项插件、maven 程序集插件)和所有这些插件解压依赖项 jar 并将它们重新打包到可执行 jar 中。唯
java - "java $SOME_ENV_VAR -jar application.jar"和 "java -jar $SOME_ENV_VAR application.jar"之间的区别
我想问一下java命令中-jar选项前后传递参数有什么区别。考虑 $SOME_ENV_VAR=-Dinstance=qa 最佳答案取决于SOME_ENV_VAR的内容；假设它包含有效的命令行参数，例
jar - Leiningen:创建可执行 jar 以在没有 java -jar 的情况下运行
我试图了解如何打包用 Clojure 编写的命令行应用程序进行分发。我不希望用户不得不使用 java -jar myproject.jar arg1 arg2运行程序。 PHP 有一个叫做“Phar”
jar - gradle - 如何构建一个带有 lib 目录和其他 jar 的 jar？
在 gradle 中 - 如何将 jar 嵌入到 lib 中的构建输出 jar 中目录(特别是 lib/enttoolkit.jar 和 lib/mail.jar)？最佳答案如果您的项目中的一个目
java - javadoc.jar、sources.jar 和 .jar 之间有什么区别？
查看 Google gson 2.8.5 ，我看到这里分发了几个 jar https://repo1.maven.org/maven2/com/google/code/gson/gson/2.8.5/
java - 在 JAR 中包含 JAR 会使类看不到 jar 内容
我正在将 jar 文件和一个主类合并到一个 jar 中。问题是我的主类使用这些 jar ，如果它在一个 jar 中，它就会抛出找不到类定义。如何让类(class)看到 jar 里的 jar ？最佳答
java - 在制作项目 jar 时包含一些 jar 并排除其他 jar 吗？
我正在使用 Maven 进行开发。我有一个要求，我想在我的项目 jar 中包含一些第三方 jar 并排除 pom.xml 文件中指定的其他 jar。下面是我的 pom.xml 文件。 4.0.0 c
java - 你能在一个 jar 文件中添加多个 jar 然后启动那个 jar 文件吗
我正在开发一个 GUI 应用程序，宁愿只分发一个 jar 而不是多个。你能用 list 来控制它吗？最佳答案另一种选择是使用自定义类加载器，例如这个: http://one-jar.source
java - : api. jar + impl.jar + bundle.jar 的用途是什么？
我看到许多 Java 包都有 api、impl 和 bundle jar(name-api.jar、name-impl.jar、name-bundle.jar)。有人可以解释这些是什么意思吗？应用程序

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

eclipse - 在 MapReduce 模式下，来自 Jar 文件而非 Eclipse 的 PIG 脚本统计信息始终为零 (0)