gpt4 book ai didi

hadoop - 使用Hadoop最快访问文件

转载 作者:行者123 更新时间:2023-12-02 20:14:09 25 4
gpt4 key购买 nike

我需要最快地访问一个文件,该文件的多个副本存储在许多使用Hadoop的系统中。我还需要以一种排序的方式找到每个文件的ping时间。
我应该如何学习hadoop以完成此任务?
请快速帮助。我的时间很少。

最佳答案

如果您需要更快地访问文件,只需使用setrep命令增加该文件的复制因子。由于您当前的硬件限制,这可能无法按比例增加文件吞吐量。

ls命令未提供目录和文件的访问时间,仅显示了修改时间。使用Offline Image Viewer将hdfs fsimage文件的内容转储为人类可读的格式。下面是使用缩进选项的命令。

bin/hdfs oiv -i fsimagedemo -p Indented -o fsimage.txt



来自fsimage.txt的样本o / p,查找ACCESS_TIME列。
INODE
INODE_PATH = /user/praveensripati/input/sample.txt
REPLICATION = 1
MODIFICATION_TIME = 2011-10-03 12:53
ACCESS_TIME = 2011-10-03 16:26
BLOCK_SIZE = 67108864
BLOCKS [NUM_BLOCKS = 1]
BLOCK
BLOCK_ID = -5226219854944388285
NUM_BYTES = 529
GENERATION_STAMP = 1005
NS_QUOTA = -1
DS_QUOTA = -1
PERMISSIONS
USER_NAME = praveensripati
GROUP_NAME = supergroup
PERMISSION_STRING = rw-r--r--

要以一种排序的方式获取ping时间,您需要编写一个shell脚本或其他程序来提取每个INODE部分的INODE_PATH和ACCESS_TIME,然后根据ACCESS_TIME对其进行排序。您也可以使用Pig,如 here所示。

How should I approach learning hadoop to accomplish this task? Please help fast.I have very less time.



如果您想在一两天内学习Hadoop,那是不可能的。 Here是一些视频和文章开头。

关于hadoop - 使用Hadoop最快访问文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7633775/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com