amazon-web-services - S3AFileSystem - 当前缀是文件并且是目录树的一部分时出现 FileAlreadyExistsException-6ren

amazon-web-services - S3AFileSystem - 当前缀是文件并且是目录树的一部分时出现 FileAlreadyExistsException

转载作者：行者123 更新时间：2023-12-02 19:56:12

26

4

我们正在使用 aws-java-sdk-1.7.4.jar hadoop-aws-2.7.5.jar 运行 Apache Spark 作业，以将 parquet 文件写入 S3 存储桶。

我们在 s3 中有键 's3://mybucket/d1/d2/d3/d4/d5/d6/d7'(d7 是一个文本文件)。我们还有键 's3://mybucket/d1/d2/d3/d4/d5/d6/d7/d8/d9/part_dt=20180615/a.parquet' (a.parquet 是一个文件)

当我们运行 spark 作业以在 's3://mybucket/d1/d2/d3/d4/d5/d6/d7/d8/d9/part_dt=20180616/' 下写入 b.parquet 文件时(即希望有 ' s3://mybucket/d1/d2/d3/d4/d5/d6/d7/d8/d9/part_dt=20180616/b.parquet' 在 s3 中创建)我们得到以下错误

org.apache.hadoop.fs.FileAlreadyExistsException: Can't make directory for path 's3a://mybucket/d1/d2/d3/d4/d5/d6/d7' since it is a file.
at org.apache.hadoop.fs.s3a.S3AFileSystem.mkdirs(S3AFileSystem.java:861)
at org.apache.hadoop.fs.FileSystem.mkdirs(FileSystem.java:1881)

最佳答案

如 HADOOP-15542 中所述.您不能在“正常” FS 的目录下拥有文件；您不会将它们放入 S3A 连接器中，至少在它进行了足够的尽职调查的情况下。

它只是混淆了每一个树行走算法，重命名，删除，任何扫描文件的东西。这将包括 Spark 分区逻辑。您尝试创建的新目录树可能对调用者来说是不可见的。 (您可以通过创建它来测试它，将该文本文件的 PUT 放置到位，看看会发生什么)

我们尝试在 The Hadoop Filesystem Specification 中定义 FS 应该做什么。，包括定义“如此明显”以至于没有人费心写下来或编写测试的事情，例如

所有 child 都必须有 parent

只有文件可以有数据(异常(exception):ReiserFS)

文件和他们说的一样长(这就是为什么 S3A 不支持客户端加密，顺便说一句)。

每隔一段时间，我们就会发现一些我们忘记考虑的新事物，即哪些“真正的”文件系统强制执行，而哪些对象存储没有。然后我们添加测试，尽量保持隐喻，除非性能影响使其无法使用。然后我们选择不解决问题并希望没有人注意到。通常，由于在 hadoop/hive/spark 空间中处理数据的人对文件系统的功能有着相同的先入之见，因此这些歧义实际上不会在生产中引起问题。

当然最终一致性除外，这就是为什么你不应该在没有一致性服务(S3Guard，一致 EMRFS)或为这个世界设计的提交协议(protocol)(S3A Committer，databricks DBIO)的情况下将数据从 spark 直接写入 S3。

关于amazon-web-services - S3AFileSystem - 当前缀是文件并且是目录树的一部分时出现 FileAlreadyExistsException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50868123/

26

4

0

文章推荐： c# - 如何在 MVC 中运行控制台应用程序

文章推荐： .net - 引用第 3 方程序集的最佳实践

文章推荐： amazon-web-services - 多个私有(private)子网？

目录
我正在为我的程序编写安装脚本，它应该在 Linux/Unix 操作系统上运行。以下文件的默认目录是什么: 可执行文件(程序)。程序应通过从命令行键入其名称来执行。共享库。第三方共享库(程序未开源，
asp.net-mvc - 将 AAD 从一个租户(目录)迁移到另一个租户(目录)
我有一堆用户、组和应用程序注册，我的 MVC 应用程序使用 AAD 数据进行身份验证和授权。是否可以将 Azure Active Directory 从一个租户(目录)迁移到另一个租户(目录)？如果可
clojure - lein-cljsbuild 源 cljs 目录 -> 输出 js 目录？
查看 cljsbuild 文档 https://github.com/emezeske/lein-cljsbuild :cljsbuild { :builds [{ ; The
svn利用TortoiseSVN忽略文件或文件夹(目录)
忽略已经版本控制的文件如果你不小心添加了一些应该被忽略的文件，你如何将它们从版本控制中去除而不会丢失它们？或许你有自己的IDE配置文件，不是项目的一部分，但将会花费很多时间使之按照自己的方式工作。
latex 目录？
我想使用\tableofcontents 命令，但没有目录从新页面开始或在末尾创建新页面，并且所有内容都是单倍行距。我怎样才能做到这一点？我假设使用 tocloft，但有哪些选择？谢谢最佳答案试
JavaScript 目录
我有一些 javascript 菜单代码，可以在单独的目录中正常工作。但是，当我尝试从同一目录中调用相同的 .js 文件时，它不会看到这些文件。以下内容来自另一个目录: script type="t
Python3列出与某个文件夹名称相同级别的所有文件/目录
我有这样的路径: /my/path/to/important_folder 在同一级别上，我还有其他文件和文件夹想要在达到与 important_folder 相同的级别时列出。我的文件夹可能更深，
Python如何获取文件路径/目录
1、获取文件路径实现 1.1 获取当前文件路径 ? 1
emacs 目录-局部变量问题
我正在使用最新版本的 NTEmacs。我写了一个名为“.dir-locals.el”的文件，如下所示。 ((nil . ((tab-width . 8) (fill-column .
Eclipse 的备忘单存储库/目录
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
vim - 使用vim代码折叠标记生成索引(目录)
在我的 .vimrc 中有这些行 :set foldmethod=marker :set foldmarker=SECTION:,ENDSECTION: 用于自定义代码折叠。在我的文件中，相关语言的注
fish - 如何仅在fishshell中列出文件/目录？
在 fish 中: for x in * echo $x end *这里包括所有目录和文件，如何只列出文件(或目录)？最佳答案 fish 没有很多花哨的通配语法。但是，目录可以像这样迭代: f
Python 目录 hell
这是我的目录结构: ├── src │ ├── helpers │ │ ├── __init__.py │ │ ├── foo.py │ │ └── bar.py │
bash - 递归重命名文件夹/目录
我想递归重命名文件夹/目录名称并找到 this solution所以。但是这个命令没有效果 find . -type f -exec rename 's/old/new/' '{}' \; 这是一个正
iphone - 在相册中创建文件夹/目录
我想在相册中创建一个文件夹，并希望将图像保存在创建的相册中。这可能吗？有什么办法可以做到这一点吗？我已经搜索过，大多数人都说这是不可能的。感谢您的帮助。最佳答案您也许可以使用AssetsLi
python - 具有自定义名称的临时文件/目录？
如何在python中使用用户定义的名称创建临时文件/目录。我知道 tempfile .但是我看不到任何以文件名作为参数的函数。注意:我需要这个来对包含临时文件的临时目录上的 glob(文件名模式匹配
gradle - 从JaCoCo报告中删除特定的*目录*
我在项目中使用JaCoCo Gradle插件。作为问题的一个示例，我的大部分代码都在com.me.mysoftware包下。我正在使用代码生成器来生成build/generated/java/..
Gradle 找不到文件/目录
我正在尝试使用 Gradle 开始运行 jar 文件我的任务如下所示: task startServer(type: Exec) { workingDir file("${buildDir}/a
包含根目录的 Ant 目录
如何在 Ant 中定义一个目录集，其中包括两个目录:项目的基目录和子目录“test”？看起来您无法使用“/”、“.”或“”专门包含目录集的根目录。例如，这包括“./test”，但不包括“.”:
sublimetext2 - 项目查找器的设置是什么以避免搜索某些文件/目录？
我正在使用 CTAGs 包，它使用 Sublime Text 2 生成两个文件 .tags 和 .tags_sorted_by_file。那么当我进行项目搜索(CMD + SHIFT + F)时，如

首页

博学

6Ren·AI

商城

amazon-web-services - S3AFileSystem - 当前缀是文件并且是目录树的一部分时出现 FileAlreadyExistsException