java - 如何在java客户端获取HDFS服务器的元数据信息？-6ren

java - 如何在java客户端获取HDFS服务器的元数据信息？

转载作者：可可西里更新时间：2023-11-01 14:59:37

26

4

我需要构建一个实用程序类来测试与 HDFS 的连接。测试应显示 HDFS 的服务器端版本和任何其他元数据。虽然，有很多可用的客户端演示，但没有关于提取服务器元数据的演示。有人可以帮忙吗？

请注意，我的客户端是一个远程 java 客户端，没有 hadoop 和 HDFS 配置文件来初始化配置。我需要通过动态使用其 URL 连接到 HDFS 名称节点服务来完成此操作。

最佳答案

Hadoop 通过 HTTP 公开一些您可以使用的信息。参见 Cloudera的文章。可能最简单的方法是连接到 NN UI 并解析内容服务器返回:

URL url = new URL("http://myhost:50070/dfshealth.jsp");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
...

另一方面，如果您知道 NN 和 JT 的地址，则可以连接到它们使用像这样的简单客户端 (Hadoop 0.20.0-r1056497):

import java.net.InetSocketAddress;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hdfs.DFSClient;
import org.apache.hadoop.hdfs.protocol.ClientProtocol;
import org.apache.hadoop.hdfs.protocol.DatanodeInfo;
import org.apache.hadoop.hdfs.protocol.FSConstants.DatanodeReportType;
import org.apache.hadoop.mapred.ClusterStatus;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.util.VersionInfo;

public class NNConnTest {

    private enum NNStats {

        STATS_CAPACITY_IDX(0, 
                "Total storage capacity of the system, in bytes: ");
        //... see org.apache.hadoop.hdfs.protocol.ClientProtocol 

        private int id;
        private String desc;

        private NNStats(int id, String desc) {
            this.id = id;
            this.desc = desc;
        }

        public String getDesc() {
            return desc;
        }

        public int getId() {
            return id;
        }

    }

    private enum ClusterStats {

        //see org.apache.hadoop.mapred.ClusterStatus API docs
        USED_MEM {
            @Override
            public String getDesc() {
                String desc = "Total heap memory used by the JobTracker: ";
                return desc + clusterStatus.getUsedMemory();
            }
        };

        private static ClusterStatus clusterStatus;
        public static void setClusterStatus(ClusterStatus stat) {
            clusterStatus = stat;
        }

        public abstract String getDesc();
    }


    public static void main(String[] args) throws Exception {

        InetSocketAddress namenodeAddr = new InetSocketAddress("myhost",8020);
        InetSocketAddress jobtrackerAddr = new InetSocketAddress("myhost",8021);

        Configuration conf = new Configuration();

        //query NameNode
        DFSClient client = new DFSClient(namenodeAddr, conf);
        ClientProtocol namenode = client.namenode;
        long[] stats = namenode.getStats();

        System.out.println("NameNode info: ");
        for (NNStats sf : NNStats.values()) {
            System.out.println(sf.getDesc() + stats[sf.getId()]);
        }

        //query JobTracker
        JobClient jobClient = new JobClient(jobtrackerAddr, conf); 
        ClusterStatus clusterStatus = jobClient.getClusterStatus(true);

        System.out.println("\nJobTracker info: ");
        System.out.println("State: " + 
                clusterStatus.getJobTrackerState().toString());

        ClusterStats.setClusterStatus(clusterStatus);
        for (ClusterStats cs : ClusterStats.values()) {
            System.out.println(cs.getDesc());
        }

        System.out.println("\nHadoop build version: " 
                + VersionInfo.getBuildVersion());

        //query Datanodes
        System.out.println("\nDataNode info: ");
        DatanodeInfo[] datanodeReport = namenode.getDatanodeReport(
                DatanodeReportType.ALL);
        for (DatanodeInfo di : datanodeReport) {
            System.out.println("Host: " + di.getHostName());
            System.out.println(di.getDatanodeReport());
        }

    }

}

确保您的客户端应使用与您的集群相同的 Hadoop 版本，否则可能会发生 EOFException。

关于java - 如何在java客户端获取HDFS服务器的元数据信息？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12366482/

26

4

0

文章推荐： hadoop - 从绝对文件路径的逗号分隔列表配置单元加载数据

文章推荐： html - 如何在 CSS 中为 calc() 值设置最小值

文章推荐： html - 添加 "invisible"或被 CSS 选择器规则跳过的 html 元素

文章推荐： hadoop - 如何优化 pig 中的大表读取和外部连接

hdfs - HDFS 文件如何存储在底层操作系统文件系统上？
HDFS 是 Hadoop 中的逻辑文件系统，块大小为 64MB。 HDFS 上的文件依次保存在底层操作系统文件系统上，比如 ext4，块大小为 4KiB。据我所知，对于本地文件系统上的文件，操作系
hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"
哪种工具最适合测量 HDFS 空间消耗？当我总结“hdfs dfs -du/”的输出时，与“hdfs dfsadmin -report”(“DFS Used”行)相比，我总是消耗更少的空间。是否有
hdfs - 将 HDFS 校验和与本地文件系统校验和进行比较
我正在尝试编写一个简单的脚本来验证 HDFS 和本地文件系统校验和。在 HDFS 上我得到 - [m@x01tbipapp3a ~]$ hadoop fs -checksum /user/m/fil
hdfs - 如何从 HDFS 恢复已删除的文件夹
我从 HDFS 中删除了一个文件夹，我在下面找到了它 /user/hdfs/.Trash/Current/ 但我无法恢复它。我查看了论坛，但没有找到好的解决方案。请有人有解决方案我可以帮助我如何在最
hdfs - Presto hdfs 本地读取和预聚合
在 5 个节点的集群上运行 Presto 大型扫描查询，看起来只有一个节点是查询协调器，并通过网络从 5 个 hdfs 节点读取数据。所有 presto 进程都在数据节点上运行。有没有办法让5个节
hdfs - 将文件放在名称中有空格的 HDFS 上
我有一个名为 file name(1).zip 的文件(里面有空格和括号)，我想把这个文件放在 HDFS 上。但是每次我尝试通过 hadoop fs -put ... 放置它时，我都会遇到异常。我什
hdfs - Presto hdfs 本地读取和预聚合
在 5 个节点集群上运行 Presto 大扫描查询，看起来只有一个节点是查询协调器，并通过网络从 5 个 hdfs 节点读取数据。所有presto进程都在数据节点上运行。有没有办法让5个节点使用s
hadoop hdfs 指向文件 :///not hdfs://
所以我在 CentOS 5 上通过 Cloudera Manager cdh3u5 安装了 Hadoop。当我运行 cmd 时 hadoop fs -ls/ 我希望看到 hdfs://localhos
hadoop - HDFS 错误 + 不完整的 HDFS URI，没有主机 : hdfs://l27. 0.0.1:9000
我用命令在hadoop上运行flume flume-ng agent -c conf -f conf/flume-twitter.conf -n TwitterAgent 现在我无法保存推特数据。它显
hadoop - 在 HDFS 的联邦中将数据从本地磁盘复制到 HDFS
我使用两台主机(hadoop-coc-1 和 hadoop-coc-2)尝试在其中配置 HDFS 联合。因此，我在两个主机(hadoop-coc-1 和 hadoop-coc-2)中配置了 $ cat
hadoop - 将大量文件从 hdfs 移动到 hdfs
我需要将大量文件从一个 hdfs 目录移动(而不是复制)到同一集群中的另一个 hdfs 目录。我可以使用 distcp，但它似乎有点矫枉过正，因为它正在复制文件(复制它)我只想移动它。两个问题: A
hadoop - 无法将文件写入 hdfs - 在安全模式下出现错误 hdfs
当我尝试将文件从我的本地目录复制到 HDFS 时，出现以下错误: [cloudera@localhost ~]$ hadoop fs -copyFromLocal hello.txt /user/
hadoop - HDFS 到 HDFS 完全强制移动文件
据我所知，在从一个 HDFS 位置移动到另一个位置时，没有直接选项可以覆盖 HDFS 中的文件，复制 cp 可以选择强制执行。我试图找出是否有任何黑客可以做到这一点？我们能做的是 hdfs dfs
hadoop - 如何将数据从一个 HDFS 复制到另一个 HDFS？
我有两个 HDFS 设置，想将一些表从 HDFS1 复制(而不是迁移或移动)到 HDFS2。如何将数据从一个 HDFS 复制到另一个 HDFS？是否可以通过 Sqoop 或其他命令行实现？最佳答案
hdfs - Kafka Storm HDFS/S3 数据流
目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。我想让 Kafka 将数据保存到 HDFS 或 S3，并将该数据的副本发送到 Storm 进行实时处理。 Storm
hdfs - 作为 EMR 步骤运行 HDFS 命令
如何发出 hdfs 命令作为 EMR 集群中的一个步骤？将步骤添加为 script_runner.jar 任务似乎奇怪地失败了。最佳答案使用 command-runner.jar 并调出 bash
hdfs - 作为 EMR 步骤运行 HDFS 命令
如何发出 hdfs 命令作为 EMR 集群中的一个步骤？将步骤添加为 script_runner.jar 任务似乎奇怪地失败了。最佳答案使用 command-runner.jar 并调出 bash
hadoop - 尝试更新 HDFS 中的文件时 HDFS 路径发生变化
我是 Hadoop 和 HDFS 的新手，所以当我从本地 (Ubuntu 10.04) 复制到本地主机上单个节点上的 HDFS 时，可能是我做错了什么。初始副本工作正常，但当我修改我的本地输入文件夹并
hadoop - 如何更改 hdfs 用户的 HDFS 用户主目录？
根据我在 Hadoop HDFS 上的实践，我了解到在创建用户 say u1 并尝试将文件从本地文件系统放入 HDFS 时，它会搜索目录 /user/u1 (默认情况下)对 HDFS 文件系统具有写入
hadoop - HDFS 将本地文件放入 hdfs 但出现 UnresolvedAddressException
我想将一个 70G 的文件放入 hdfs，所以我使用“put”命令来完成此操作。但是，我得到以下异常。我用相同的命令尝试了小尺寸文件，它有效。有谁知道是什么问题？谢谢! WARN [DataStre

首页

博学

6Ren·AI

商城

java - 如何在java客户端获取HDFS服务器的元数据信息？