gpt4 book ai didi

hadoop - 当目录存在时 hdfs moveFromLocal 中的奇怪行为

转载 作者:可可西里 更新时间:2023-11-01 15:38:25 25 4
gpt4 key购买 nike

我正在尝试使用 moveFromLocal hdfs shell 命令将文件(树结构)从本地文件系统移动到 hdfs。

如果目标子目录不存在,一切正常。但是,如果它们存在(这是一般情况——因为文件被添加到现有目录),则会创建层次结构中的另一个级别

例子:

磁盘上的原始结构

$ find src
src
src/a
src/a/2
src/a/2/file1
src/a/1
src/a/1/file1
src/a/4
src/a/4/file1
src/a/3
src/a/3/file1
src/b
src/b/2
src/b/2/file1
src/b/1
src/b/1/file1
src/b/4
src/b/4/file1
src/b/3
src/b/3/file1

移动命令

$hdfs dfs -moveFromLocal src/* /dst

结果(符合预期)

$ hdfs dfs -ls  -R /dst
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/1
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/1/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/2
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/2/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/3
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/3/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/4
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/4/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/1
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/1/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/2
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/2/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/3
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/3/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/4
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/4/file1

第二批本地文件

$ find src
src
src/a
src/a/2
src/a/2/file2
src/a/1
src/a/1/file2
src/a/4
src/a/4/file2
src/a/3
src/a/3/file2
src/b
src/b/2
src/b/2/file2
src/b/1
src/b/1/file2
src/b/4
src/b/4/file1
src/b/3
src/b/3/file2

将第二批移动到 hdfs

$ hdfs dfs -moveFromLocal src/* /dst

hdfs 上的第二批

请注意,所有“file2”都处于双重层次结构中(a/a,而不仅仅是 a)

$ hdfs dfs -ls  -R /dst
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/a
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/1
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/1/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/2
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/2/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/3
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/3/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/a/4
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/a/4/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/a/a
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/a/a/1
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/a/a/1/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/a/a/2
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/a/a/2/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/a/a/3
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/a/a/3/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/a/a/4
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/a/a/4/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/b
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/1
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/1/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/2
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/2/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/3
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/3/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:39 /dst/b/4
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:39 /dst/b/4/file1
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/b/b
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/b/b/1
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/b/b/1/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/b/b/2
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/b/b/2/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/b/b/3
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/b/b/3/file2
drwxr-xr-x - root supergroup 0 2014-02-02 03:42 /dst/b/b/4
-rw-r--r-- 3 root supergroup 0 2014-02-02 03:42 /dst/b/b/4/file1

编辑

我了解此行为是设计使然...我愿意接受性能相同的替代解决方案。

  • 最简单的解决方案是创建一个单独移动每个文件的循环,由于性能问题(每个 hdfs 命令启动一个新的 jvm),这是有问题的

  • 我也考虑过使用复制而不是移动,但我需要一种高效且安全的方法来删除实际复制的文件。

最佳答案

此行为与 Unix 上的 mv 一致(有点)——尽管它的手册页没有记录它,如果目标目录包含文件,mv 将拒绝将目录重命名为另一个目录:

[evgeny@dev1]\$ mv 源/* dst/
mv: 无法将 'src/subsrc' 移动到 'dst/subsrc': 目录不为空

不幸的是,您必须先清理 dst 目录:“hadoop fs -rmr dst”。

关于hadoop - 当目录存在时 hdfs moveFromLocal 中的奇怪行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21509572/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com