java - 在类路径中找不到 Hadoop 配置，使用 Java 从本地在服务器中运行 mapreduce-6ren

java - 在类路径中找不到 Hadoop 配置，使用 Java 从本地在服务器中运行 mapreduce

转载作者：可可西里更新时间：2023-11-01 14:44:55

26

4

所以，

import java.io.IOException;
import java.util.Properties;

import org.apache.pig.ExecType;
import org.apache.pig.PigServer;


public class CommitPig {

    public static void main(String[] args)
    {
        try{
        String pigScript = "category_count.pig";
        pigScriptReader psReader = new pigScriptReader();
        psReader.readPigScript( pigScript );
        } catch ( IOException e){
            e.printStackTrace();
        }

        try{
            Properties props = new Properties();
            props.setProperty("fs.default.name", "<server id>");
            props.setProperty("mapred.job.tracker.http.address", "<server id>");
            props.setProperty("<server id> ");
            PigServer pigServer = new PigServer( ExecType.MAPREDUCE, props); 
            runIdQuery(pigServer,"<input location>");

        } catch ( Exception e){
            e.printStackTrace();
        }

    }

    private static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {

        pigServer.registerQuery("A = load '" + inputFile + "' using PigStorage(' ');");
        pigServer.registerQuery("B = filter A BY $0 == 'testing';");
        pigServer.store("B","id.out");

    }
}

这是我目前正在运行的代码。

我正在尝试使用 Java 从本地连接到集群服务器，以运行 pig 查询。

它给我错误

ERROR 4010: Cannot find hadoop configurations in classpath (neither hadoop-site.xml nor core-site.xml was found in the classpath)

我尝试按照 apache 的说明在集群中设置类路径。

在 Mapreduce 模式下运行 Pig 脚本要在 mapreduce 模式下运行 Pig 脚本，请执行以下操作:

将 PIG_CLASSPATH 环境变量设置为集群配置目录(包含 core-site.xml、hdfs-site.xml 和 mapred-site.xml 文件的目录)的位置:export PIG_CLASSPATH=/mycluster/conf
将 HADOOP_CONF_DIR 环境变量设置为集群配置目录的位置:导出 HADOOP_CONF_DIR=/mycluster/conf

但是我仍然遇到同样的错误。我在这里理解错了吗？有人可以帮助我了解这里的问题到底是什么以及如何解决吗？

谢谢!

最佳答案

做

export HADOOP_HOME=/path/to/hadoop

然后 running pig 再次为我修复了它。

关于java - 在类路径中找不到 Hadoop 配置，使用 Java 从本地在服务器中运行 mapreduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17686215/

26

4

0

文章推荐： javascript - 在选择下拉列表中隐藏所选选项

文章推荐： c++ - 为什么 MinGW-w64 需要手动包含 winsock2？

文章推荐： windows - CasperJS 脚本永远不会退出

TeamCity 和 YouTrack 不到 1GB
我正在尝试在 Windows 上运行的小于 1GB 的 VM 上设置 YouTrack 和 TeamCity。使用率将非常低(用户和请求)。这是一个 POC 环境，如果它有效，我可能会将它推送到一个超
batch-file - 不到 4 天的 FORFILES
所以我在尝试使用 FORFILES 解决这个问题时遇到了麻烦。我正在尝试获取不超过 4 天的文件。所以基本上少于 4 天。然而，这似乎不太可能，因为/d -4 获取所有 4 天或更早的项目。以下是我
sql - PostgreSQL:SELECT WHERE 不到 15 分钟
如何从下面的 events 表中选择小于 15 分钟前创建的 events？ CREATE TABLE events ( created_at timestamp NOT NULL DEFAU
google-analytics - Google Analytics - 不到 n 分钟前
Google Analytics Realtime提供 rt:minutesAgo ，可以过滤查询。然而，它是一个维度而不是一个度量标准，<=不能在过滤器中使用。假设我想在最后 n 分钟内获得一些
iOS 核心数据 - 严重的应用程序错误 - 尝试插入 nil - 不到 1%
iOS 核心数据 - 严重的应用程序错误 - 尝试插入 nil 你好，我的应用程序实际上运行稳定，但在极少数情况下它会崩溃并显示此错误消息... 2019-04-02 20:48:52.437172
javascript - 如何使 html div 快速向右移动(不到 1 秒)并消失？
我想制作一个 html div 以快速向右移动(例如不到 1 秒)并消失。然后1秒后再次直接出现在这个过程最开始div的位置。此过程将由单击按钮并重复 10 次触发。我试图在 CSS 中使用过渡属性
scheduler - Windows 10 (UWP) 中的 TimeTrigger/Scheduler 不到 15 分钟
我发现使用 TimeTrigger 是 Windows 10 (UWP) 上计划后台任务的方式。但是看起来我们需要给出的最小数字是 15 分钟。只是想知道，即使我们安排它在接下来的 1 分钟内运行，警
c++ - 如何在 C++ 中快速(不到 1 秒)在屏幕上打印 2^20 行整数？
我必须在 1 秒内在屏幕上打印 2^20 行整数 printf 不够快，还有其他易于使用的快速输出替代方法吗？每一行只包含 1 个整数。我要求它用于竞争性编程问题，我必须将其源代码提交给法官。最

首页

博学

6Ren·AI

商城

java - 在类路径中找不到 Hadoop 配置，使用 Java 从本地在服务器中运行 mapreduce