apache-spark - 神秘的 Spark/Hadoop BlockMissingException-6ren

apache-spark - 神秘的 Spark/Hadoop BlockMissingException

转载作者：行者123 更新时间：2023-12-03 21:01:26

30

4

当程序尝试访问附加的 HDFS 中的文件时，在 Google Dataproc 上运行 Spark 作业时，我看到很多类似以下的错误(是的，我从事生物信息学，如果这很重要):

Caused by: 
org.apache.hadoop.hdfs.BlockMissingException: 
Could not obtain block: 
BP-605637428-10.128.0.34-1564425505397:blk_1073741871_1047 
file=/reference/Homo_sapiens_assembly38.fasta

当我解析日志时，异常反复提示访问了4~5个块。该文件大约为 3GB，HDFS 上的块大小设置为大约 138MB。

然后我去了 hadoop fsck /reference/Homo_sapiens_assembly38.fasta ，并得到以下

.Status: HEALTHY
 Total size:    3249912778 B
 Total dirs:    0
 Total files:   1
 Total symlinks:        0
 Total blocks (validated):  25 (avg. block size 129996511 B)
 Minimally replicated blocks:   25 (100.0 %)
 Over-replicated blocks:    0 (0.0 %)
 Under-replicated blocks:   0 (0.0 %)
 Mis-replicated blocks:     0 (0.0 %)
 Default replication factor:    2
 Average block replication: 2.0
 Corrupt blocks:        0
 Missing replicas:      0 (0.0 %)
 Number of data-nodes:      8
 Number of racks:       1

我也试过设置 dfs.client.use.datanode.hostname至 true当按照指示创建 dataproc 集群时 here和 here ，但也没有成功。

我也打算增加 dfs.replication从 Dataproc 默认值 2 到 3，但 Google 说 this所以我不确定这是否会影响性能。

任何人都知道发生了什么？

最佳答案

我也有这个问题，问题是输入文件已损坏。我刚刚再次将文件上传到 HDFS，它运行良好。

关于apache-spark - 神秘的 Spark/Hadoop BlockMissingException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57294620/

30

4

0

文章推荐： unix - unix 进程正在使用的文件

文章推荐： css - 在 Material 设计组件中如何计算原色的明暗版本？

hadoop BlockMissingException
我遇到以下错误: Diagnostics: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-46793
hadoop - 配置单元查询 BlockMissingException
我在 TEZ 和 MapReduce 执行引擎上都遇到了问题。两者似乎都与权限有关，但对于我来说，我迷路了。当我通过 TEZ 执行它时，我收到此消息: org.apache.hadoop.hdfs.
apache-spark - 神秘的 Spark/Hadoop BlockMissingException
当程序尝试访问附加的 HDFS 中的文件时，在 Google Dataproc 上运行 Spark 作业时，我看到很多类似以下的错误(是的，我从事生物信息学，如果这很重要): Caused by: o
hadoop - hadoop作业中的org.apache.hadoop.fs.BlockMissingException
我在Hadoop工作中遇到以下异常。我无法找出导致此异常的原因。您能帮我解决这个错误吗？为什么会出现此错误？异常堆栈跟踪: org.apache.hadoop.fs.BlockMissingExce
scala - 使用 Spark sc.textFile 读取文件时如何捕获 BlockMissingException？
当读取存储在 HDFS 上的文本文件时，如果我在使用 sc.textFile 读取这些文件时遇到 BlockMissingException(或其他一些异常)，我该如何捕获错误并继续执行 emptyR
java - 在 Hadoop 2 中从 Java 远程读取 HDFS 文件时出现 BlockMissingException
我使用的是 Hadoop 2.6，我有一个安装了 HDFS 的虚拟机集群。我正在尝试通过在我的本地运行的一些 Java 代码远程读取我的 HDFS 中的文件，以基本方式，使用 BufferedRead
docker - Hadoop Spark docker swarm 其中 pyspark 给出 BlockMissingException 但文件很好
基于 https://github.com/gotthardsen/docker-hadoop-spark-workbench/tree/master/swarm我有一个带有 hadoop、spark

首页

博学

6Ren·AI

商城

apache-spark - 神秘的 Spark/Hadoop BlockMissingException