hadoop - 使用hadoop distcp将数据复制到s3 block 文件系统: The specified copy source is larger than the maximum allowable size for a copy source-6ren

hadoop - 使用hadoop distcp将数据复制到s3 block 文件系统: The specified copy source is larger than the maximum allowable size for a copy source

转载作者：行者123 更新时间：2023-12-02 21:51:35

24

4

我正在尝试使用 hadoop 的 distcp将数据从 HDFS 复制到 S3(不是 S3N)。我的理解是使用 s3://协议(protocol)，Hadoop 将在 S3 上存储各个 block ，并且每个 S3"file"将有效地成为一个 HDFS block 。

Hadoop 版本是在 Amazon EMR 上运行的 2.2.0。

但是，尝试做一个简单的 distcp ，我收到以下错误:

Caused by: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: 71C64ECE79FCC244, AWS Error Code: InvalidRequest, AWS Error Message: The specified copy source is larger than the maximum allowable size for a copy source: 5368709120, S3 Extended Request ID: uAnvxtrNolvs0qm6htIrKjpD0VFxzjqgIeN9RtGFmXflUHDcSqwnZGZgWt5PwoTy
    at com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:619)
    at com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:317)
    at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:170)
    at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:2943)
    at com.amazonaws.services.s3.AmazonS3Client.copyObject(AmazonS3Client.java:1235)
    at org.apache.hadoop.fs.s3native.Jets3tNativeFileSystemStore.copy(Jets3tNativeFileSystemStore.java:277)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:186)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
    at org.apache.hadoop.fs.s3native.$Proxy11.copy(Unknown Source)
    at org.apache.hadoop.fs.s3native.NativeS3FileSystem.rename(NativeS3FileSystem.java:1217)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.promoteTmpToTarget(RetriableFileCopyCommand.java:161)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:110)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:83)
    at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87)

我的一些源文件大于 5GB。查看错误，distcp 似乎正在尝试将文件从 HDFS 盲目复制到 S3，就好像它正在使用 S3 Native 文件系统一样。由于文件大于 5GB，因此失败，因为 S3 不支持放置请求 >5GB。

为什么会这样？我原以为 distcp 会尝试将单个 block 放到 S3 上，而这些应该只有 64MB(我的 HDFS block 大小)。

最佳答案

这是来自 wiki 的示例:http://wiki.apache.org/hadoop/AmazonS3

% ${HADOOP_HOME}/bin/hadoop distcp hdfs://domU-12-31-33-00-02-DF:9001/user/nutch/0070206153839-1998 s3://123:456@nutch/

关于hadoop - 使用hadoop distcp将数据复制到s3 block 文件系统: The specified copy source is larger than the maximum allowable size for a copy source，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20286148/

24

4

0

文章推荐： hadoop - Java Hadoop中的Map Reduce

文章推荐： hadoop - Hive MapReduce作业提交失败 “Target is a directory”

文章推荐： hadoop - Pig和Java MR每个LZO文件仅分配一个映射器

文章推荐： hadoop - Spring XD与Hortonworks沙箱的集成

Java 垃圾收集器 :old generation becomes larger and larger and cannot be reclaimed
我正在编写我的 servlet 程序并使用 jconsole 和 jmap 来监视其内存状态。我发现当我的程序运行时，内存池“PS Old Gen”变得越来越大，最后我的 servlet 无法响应任何
TFS 检查包含 "larger"二进制文件的变更集超时
我正在执行从 tfs.visualstudio 到内部部署 2012 服务器的 TFS 集成迁移。我遇到了一个包含多个超过 1 MB 的二进制文件的特定变更集的问题，其中一些是 15-16 MB。 [
rust - 彻底匹配涉及 "larger than"情况的一系列整数
考虑一个带有内置整型常量的 Rust 程序 const N: u64和运行时整数值 x: u64 。我想匹配x这样值 x N分别。我的第一次尝试如下所示: const N: u64 = 3; mat
facebook - og :image should be larger
我不确定为什么，但我在使用 OG Debugger 时不断收到此警告并且 Facebook 没有加载正确的错误。它告诉我图像不够大，但图像是 404x404px，所以我不确定它的预期是什么，因为它符合
sql - 选择比给定数字 "larger"的数字
我在 PostgreSQL 中有一个包含一个数字列的表，我有一个给定的数字 x . 如果x在表格中，我想要所有数字 >= x . 如果x不在表格里，我要所有的数字> x和最大的数字 12 UNION
javascript - 如何将字体大小设置为 "larger"或系统默认值的 140%
我想为我的用户提供显示某些的可能性字体大小大于系统默认值的元素。 documentation仅提供该样式的编号。我想显示带有 web-css“大”或“更大”值的文本，或者可能是的 140%。原
c - 处理内核模块上的 `Wframe-larger-than` 警告的建议
您好，新年快乐，我正在开发内核模块。有必要对某些参数进行数值计算才能正确设置设备。该函数工作完美，但 gcc 编译器(我正在使用 kbuild)给了我警告: warning: the frame s
C++ : Storing weight for larger Graph
我正在解决一些关于图表的问题。它需要存储 N 个节点的权重(N。如果一个节点连接到几乎所有其他节点，这是不好的，如果连接到几个节点，则便宜删除边对于大社区来说也是昂贵的(在最坏的线性时间内，一个
jquery - "if height is larger than X"不工作
我正在尝试实现一个读取图像宽度和高度的脚本，如果图像高度大于 600，则将 html div 的高度设置为 600。如果高度小于 600，则 div 的高度将是图像的高度。这是我一直在尝试的。 Ja
C : Why startingTime is larger than endingTime with gettimeofday()?
我想用 while 循环测量计算时间。我正在使用 C99 版本进行编程。我的代码如下: struct timeval startingTime,endingTime; gettimeofday(&
algorithm - Previous Larger Element 算法的预期运行时间
以下算法返回数组中前一个较大的元素。它来自 these 的第 11 页笔记。 // Input: An array of numeric values a[1..n] // Returns: An a
database - 如何在数据库中存储 "smaller than"，等于和 "larger than"
我需要将科学信息存储在数据库 (sql server) 中。在“小于”、“大于”是信息的一部分的数据库中存储值的最佳方式是什么。例子: 患者编号:123变异率:<3% 患者编号:999突变率:3%
excel-formula - Excel 函数 : Which value is larger
在 Excel 中，是否有一个 native 函数可以返回两个值中较大的一个？我希望避免使用 IF 函数。如果值得的话，我正在使用 Excel 2010 Beta。例如: GTR(66,24) 将返
javax.crypto.BadPaddingException : Message is larger than modulus
我正在开发一个项目，需要通过 RMI 网络显示一些加密解密。我为此使用 RSA 系统。解密时，我的代码出现以下错误: javax.crypto.BadPaddingException: Message
azure - 无法将网站部署到 Azure "String larger than expected"
我已从 Visual Studio 多次部署到 Azure 网站，但从几周前开始我无法再进行部署。我一遍又一遍地收到此错误 Web deployment task failed. (Error des
JavaScript, AngularJS : How do I know if element is larger than its container?
假设我在 h1 元素中有一个标题(任何元素都可以)。它的内容是动态的(不知道标题的长度)。它应该显示在一行中。 h1 在一个大小有限的 DIV(我们称之为容器)中。我怎么知道元素 (h1) 是否溢出
javascript - 终极版/传奇 : Approach for larger API's
我在基于此 real-world example 的小型项目中使用 Redux/sagas 工作流，但这些逻辑并不那么复杂。我应该如何使用更全面的 API(即 Reddit 的 API)而不会使事情变
machine-learning - Tensorflow保存模型: GraphDef cannot be larger than 2GB
我收到以下错误 - 显然是在保存模型时 Step = 1799 | Tensorflow Accuracy = 1.0 Step = 1799 | My Accuracy = 0.036335
MySQL数据库错误: Packets larger than max_allowed_packet are not allowed when insert
我已经安装了mysql服务器5.1。当我尝试插入一个大文件时，我的 MySQL 数据库中的 BLOB 字段出现问题。有人有什么建议吗？提前非常感谢最佳答案如何解决此问题: 更改 max_allo
HTML/CSS : Clickable link over a larger link
我有以下代码 Can you click me? 目标是我可以点击“你能点击我吗”框并转到 google 并在包含 div 的任何其他地方

首页

博学

6Ren·AI

商城

hadoop - 使用hadoop distcp将数据复制到s3 block 文件系统: The specified copy source is larger than the maximum allowable size for a copy source