gpt4 book ai didi

apache-spark - 神秘的 Spark/Hadoop BlockMissingException

转载 作者:行者123 更新时间:2023-12-03 21:01:26 30 4
gpt4 key购买 nike

当程序尝试访问附加的 HDFS 中的文件时,在 Google Dataproc 上运行 Spark 作业时,我看到很多类似以下的错误(是的,我从事生物信息学,如果这很重要):

Caused by: 
org.apache.hadoop.hdfs.BlockMissingException:
Could not obtain block:
BP-605637428-10.128.0.34-1564425505397:blk_1073741871_1047
file=/reference/Homo_sapiens_assembly38.fasta

当我解析日志时,异常反复提示访问了4~5个块。该文件大约为 3GB,HDFS 上的块大小设置为大约 138MB。

然后我去了 hadoop fsck /reference/Homo_sapiens_assembly38.fasta ,并得到以下
.Status: HEALTHY
Total size: 3249912778 B
Total dirs: 0
Total files: 1
Total symlinks: 0
Total blocks (validated): 25 (avg. block size 129996511 B)
Minimally replicated blocks: 25 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 2
Average block replication: 2.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 8
Number of racks: 1

我也试过设置 dfs.client.use.datanode.hostnametrue当按照指示创建 dataproc 集群时 herehere ,但也没有成功。

我也打算增加 dfs.replication从 Dataproc 默认值 2 到 3,但 Google 说 this所以我不确定这是否会影响性能。

任何人都知道发生了什么?

最佳答案

我也有这个问题,问题是输入文件已损坏。我刚刚再次将文件上传到 HDFS,它运行良好。

关于apache-spark - 神秘的 Spark/Hadoop BlockMissingException,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57294620/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com