hadoop - 无法在Spark集群主节点上将大文件加载到HDFS-6ren

hadoop - 无法在Spark集群主节点上将大文件加载到HDFS

转载作者：行者123 更新时间：2023-12-02 21:24:47

26

4

我已经在Amazon EC2上启动了一个Spark集群，其中包含1个主节点和2个具有2.7gb内存的服务方节点

但是，当我尝试通过下面的代码将3 GB的文件放到HDFS上时

/root/ephemeral-hdfs/bin/hadoop fs -put /root/spark/2GB.bin 2GB.bin

它返回错误，“/ user / root / 2GB.bin只能复制到0个节点，而不是1个”。仅供引用，我可以上传较小尺寸的文件，但超过一定大小(约2.2 gb)时无法上传。

如果文件超过一个节点的内存大小，难道不是Hadoop会将其拆分到另一个节点吗？

最佳答案

编辑:我对您面临的问题的理解的摘要:

1)HDFS可用总大小为5.32 GB

2)每个节点上的HDFS可用大小为2.6GB

注意:您有坏块(4个副本损坏的块)

以下问答提到了类似的问题:
Hadoop put command throws - could only be replicated to 0 nodes, instead of 1

在这种情况下，运行JPS将显示datanode处于关闭状态。

这些问答提出了一种重新启动数据节点的方法:

What is best way to start and stop hadoop ecosystem, with command line?
Hadoop - Restart datanode and tasktracker

请尝试重新启动您的数据节点，并让我们知道它是否解决了问题。

使用HDFS时-您只有一个共享文件系统

即所有节点共享相同的文件系统

根据您的描述-HDFS上的当前可用空间约为2.2GB，而您尝试将其放置为3GB时。

执行以下命令以获取HDFS可用大小:

hdfs dfs -df -h

hdfs dfsadmin -report

或(对于较旧的HDFS版本)

hadoop fs -df -h

hadoop dfsadmin -report

关于hadoop - 无法在Spark集群主节点上将大文件加载到HDFS，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36383867/

26

4

0

文章推荐： docker - Docker构成冗余吗？

文章推荐： html - 如何仅添加部分 View 所需的脚本和 css 文件

文章推荐： R Shiny - 不带选择器的数字输入

我可以在 Windows 上将 DVD 读取为单个文件吗？
我知道这在 Linux 上是可能的。我尝试使用 open("E:", 0); 和 open("E:\\", 0); 但它返回为 -1。我想将 DVD 作为一个大文件来读取，而不是将其用作文件系统。最
在 Linux 上将 CUDA 代码编译为静态库 (.a)
我正在尝试编译一个包含 CUDA 代码的小型库。我已成功将其编译为共享库，但我真正需要的是静态库。我有两个源文件: main.c:包含一个用C编写的测试函数。我用gcc编译这个文件 mai
c - 在 Linux 上将 * 作为命令行参数传递时的奇怪行为
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 9 年前。 Improve
在 Windows 上将 EXPAT 编译为静态链接的 .a
我正在使用 MingW 在 Windows 上编写 C 程序，并希望使用 EXPAT XML 库。我想静态编译我的程序，所以我需要静态 .a 库。有什么方法可以将 EXPAT 编译成 Windows
android - 如何在 android 上将 WHERE 子句添加到查询
我想将结果限制为 KEY_HOMEID 等于 journalId 的结果。我已经研究了几天，如有任何帮助，我们将不胜感激。 public Cursor fetchAllNotes(String jou
python - 如何在 Mac 上将 Python 完全恢复为出厂设置
我一直在寻找这个信息，但是由于可以通过 homebrew 和 pip 安装额外的包和 python 版本，我感觉我的环境很乱向上。此外，很久以前，我用 sudo pip install 和 sudo
bash - 如何在 Mac 上将 $PATH 更改为默认值？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
Ghostscript:如何在 Windows 上将 PDF 与通配符合并
我正在尝试合并目录中的所有 *.pdf : gswin64c -q -dNOPAUSE -sDEVICE=pdfwrite -sOutputFile=Total_Files.pdf -dBATCH *
html - 在移动 View 上将 div 推到新行
所以我有一个简单的图像缩略图着陆页，例如: 在我的网站上，4 个并排显示在桌面上。如何强制它们在移动设备 View 中成对出现在一行中？所以:桌面: #### 手机: ## ## 最佳答案
python - 如何在 Ubuntu 上将 python3 安装恢复为默认设置
我正在使用 Ubuntu 21.04。我已删除 /usr/bin/python3和 /usr/lib/python3/因为某些软件包在二进制文件中出现错误。我的意思是重新安装python3到一个新的状
在 Windows 上将 googles v8 构建为共享库？
是否可以在 Windows 上使用 gyp 将 googles v8 构建为共享库(msvc 2012)？我试过的一切都不起作用。我试过的: python build\gyp_v8 -Dcompone
rubygems - 在 mac 上将 rubygems 更新到特定版本
我需要将 rubygems 从 1.3.5 更新到 1.4.2 但显然 rubygems update 只是将您更新到最新版本如何更新到 1.4.2？最佳答案您可以使用 RVM 安装特定
iphone - 我可以在 iPhone 上将 NSTask 用于我未分发的应用程序吗？
我还没有找到太多关于它的信息，但我看到了一些提示，表明可以在 iPhone 应用程序中使用 NSTask。如果可能的话，我将如何去做？我不想越狱我的 iPhone，但我正在开发的应用程序仅供内部使用
iphone - 如何在 iPhone 上将 UIWebView 的内容居中
我在 UIWebView 中有一个 map 图像。它默认加载在左上角。我希望它在 UIWebView 的中心初始化。有人知道怎么做吗？谢谢! 最佳答案如果 map 图像是页面中唯一的内容，它是否
kubernetes - 如何在 GCE 上将 NodePort 暴露给互联网
如何公开 NodePort 类型的服务上网没有使用类型 LoadBalancer ?我发现的每个资源都是通过使用负载均衡器来完成的。但我不希望负载平衡对我的用例来说既昂贵又不必要，因为我正在运行 p
java - 在 Android 上将 View 变为可编辑状态
是否可以将 View 变成可编辑的，例如 this image ？我知道我可以使用 GridView 来做到这一点。但是，我正在尝试使用 TableRows 来做到这一点，这可能吗？编辑:我真正想
heroku - 如何在 Heroku 上将 rake 任务作为工作进程运行？
假设我已将 Heroku 应用程序扩展为 1 个工作进程，但如何指定具有特定名称的 rake 任务应作为工作进程运行？最佳答案在你的项目中创建一个 Procfile，然后像这样将 rake 任务放
github - 在 GitHub 上将 Markdown 中的引用链接作为项目符号列表包含在内
目前，我在 GitHub 上一个项目的 README.md 文件中使用此 Markdown 文本: See the docs of [testthat][3] on how to write unit
在 C 上将 IPv4 转换为 IPv6
我正在尝试使用一些到 uint8_t 的转换将 IPv4 转换为 IPv6。我知道 IPv4 有 4 个字节，IPv6 有 2 个字节的 16 个无符号整数，但我找不到它们转换的方法。 #includ
c - 如何在 C 上将 argv[] 输入分离为两个不同的字符串？
我是编程新手，目前正在学习 C。您能帮我解决以下案例吗？一个例子是，如果用户输入“cbamike”，我想将其分成两个字符串:cba 和 mike。我尝试了下面的代码，但它不起作用: #includ

首页

博学

6Ren·AI

商城

hadoop - 无法在Spark集群主节点上将大文件加载到HDFS