fetcher#1 随机播放中的 Hadoop 错误-6ren

fetcher#1 随机播放中的 Hadoop 错误

转载作者：可可西里更新时间：2023-11-01 14:16:54

26

4

我在 hadoop 中运行解析作业，源是一个 11GB 的 map 文件，其中包含大约 900,000 条二进制记录，每条记录代表一个 HTML 文件， map 提取链接并将它们写入上下文。我没有为这项工作编写 reducer 。

当我在较小的文件(大约 5GB 和大约 500,000 条记录)上运行它时，它工作正常。
这是一个单机集群
输出约1亿条记录，TEXT
在计划的 200 个 map task 中有 11 个任务失败。
我正在使用 Hadoop 0.22.0 运行

我收到以下错误:

org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:124) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:362) at org.apache.hadoop.mapred.Child$4.run(Child.java:223) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1153) at org.apache.hadoop.mapred.Child.main(Child.java:217) Caused by: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStream.java:58) at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStream.java:45) at org.apache.hadoop.mapreduce.task.reduce.MapOutput.(MapOutput.java:104) at org.apache.hadoop.mapreduce.task.reduce.MergeManager.unconditionalReserve(MergeManager.java:267)

这是我的 mapreduce-site.xml:

<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>Hadp01:8012</value>
  <description>The host and port that the MapReduce job tracker runs
  at.  If "local", then jobs are run in-process as a single map
  and reduce task.
  </description>
</property>
<property>
  <name>mapred.local.dir</name>
  <value>/BigData1/MapReduce,/BigData2/MapReduce</value>
</property>
<property>
  <name>mapred.child.java.opts</name>
  <value>-Xmx1536m</value>
</property>
<property>
        <name>dfs.datanode.max.xcievers</name>
        <value>2048</value>
</property>
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>300</value>
</property>
<property>
    <name>io.sort.mb</name>
    <value>300</value>
</property>
<property>
    <name>mapreduce.task.io.sort.factor</name>
    <value>100</value>
</property>
<property>
    <name>io.sort.factor</name>
    <value>100</value>
</property>
<property>
    <name>tasktracker.http.threads</name>
    <value>80</value>
</property>
</configuration>

有人知道怎么解决吗？谢谢!

最佳答案

默认由mapreduce.reduce.shuffle.memory.limit.percent引起的错误

mapreduce.reduce.shuffle.memory.limit.percent=0.25

为了解决这个问题，我限制了我的 reduce 的 shuffle 内存使用: hive :

set mapreduce.reduce.shuffle.memory.limit.percent=0.15;

MapReduce:

job.getConfiguration().setStrings("mapreduce.reduce.shuffle.memory.limit.percent", "0.15");

shuffle error solution

关于fetcher#1 随机播放中的 Hadoop 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19823686/

26

4

0

文章推荐： hadoop - 我们可以将关系数据存储在hdfs中吗

文章推荐： hadoop - 从 hdfs 恢复已删除的数据

spring - 在类路径上找不到 fetcher.properties
我正在使用文章 http://comdynamics.net/blog/295/spring-integration-rss-feed-reader/ 中提到的 spring 集成来实现 RSS 提要
Nutch Fetcher 中止 N 挂线程
我正在使用 Nutch-1.4 来抓取网站。我在爬行中面临的问题是 fetcher 总是中止 N 个挂起的线程。日志文件中的条目是， INFO fetcher.Fetcher - -activeTh
Cordova Background Fetcher 插件不适用于 iOS
我想实现这个插件:https://github.com/christocracy/cordova-plugin-background-fetch .我使用 CLI 安装了插件，然后将 Backgrou
coffeescript - 尝试开发一个 CoffeeScript Singleton Fetcher
我正在尝试基于 CoffeeScript Cookbook 中表示的想法开发一个 CoffeeScript Singleton Fetcher。 . 该食谱描述了如何在 CoffeeScript 中实
fetcher#1 随机播放中的 Hadoop 错误
我在 hadoop 中运行解析作业，源是一个 11GB 的 map 文件，其中包含大约 900,000 条二进制记录，每条记录代表一个 HTML 文件， map 提取链接并将它们写入上下文。我没有为这
git - bitbake git fetcher 失败
我在 Yocto Project 的 poky 中有一个自定义内核配方。我将它与 dylan-9.0.0(1.4.0 发行版)一起使用，并且运行良好。编辑:我目前使用的新版本:daisy 1.6.1
javascript - SWR 不从 fetcher 填充数据，卡在加载中
我使用 graphql 和 swr 来获取数据这是我的抓取器: FetcherHelper.js const ENDPOINT = "/api/graphql"; const headers = {
java - 这个 "Image Fetcher 0"有什么作用？
在调试 Swing 应用程序时，我发现该线程显得很常见。还有一个名为“Image Fetcher 1”的线程。有人可以向我解释一下这个线程的作用吗？它与“SwingWorker”线程有关吗？最佳答
java - 如何配置 java rome fetcher 以与代理和身份验证一起使用
我正在尝试使用 java rome-fetcher 获取 rss 提要进行处理。当我可以直接访问互联网时，一切正常。但是，我需要能够在代理服务器后面运行我的应用程序。我一直无法弄清楚如何使用 ro
Fetcher : Exceeded MAX_FAILED_UNIQUE_FETCHES 随机播放中的 Hadoop 错误
我是 hadoop 的新手。我在虚拟机上设置了一个支持 kerberos 安全性的 hadoop 集群(主站和 1 个从站)。我正在尝试从 hadoop 示例“pi”运行作业。作业终止并出现错误 Ex
yocto - 使用 bitbake SRC_URI 文件 ://fetcher 从解压的源树中剥离基本路径
说明书here说有一个 basepath选项 SRC_URI这应该“在解包时从源路径中剥离指定的目录”。我正在尝试从本地目录中获取源代码，例如 /src/someproject . 为此，我按如下方
ruby-on-rails - 使用 Fetcher 插件通过 Rails 处理传入邮件时出错？
我正在尝试获取一个运行处理电子邮件的基本示例应用程序。没有什么特别的，只是目前最简单的功能。我已经安装了 Fetcher，配置了 YAML，更新了 :receiver，并创建了一个 IncomingM
cross-domain - SCORM 跨域、SCO-Fetcher 或任何其他解决方案
为了找到解决方案，我们在美国拥有 LMS 服务器和内容服务器，因此用户可以从最近的位置获取他们的内容。我遇到了使用 SCO-Fetcher 的解决方案，在下面的这两个链接中提到并在下面进行了说明，但
javascript - 创建动态的 Facebook-fetcher-friendly URL/页面
我正在创建一个网站，其中有一个图片库，可以执行 AJAX 请求以加载图片，我有一个系统，可以使用箭头键等浏览照片，并且可以轻松共享 URL，我更改了地址栏的哈希值，并在页面上使用 javascript
ios - cs193p assignment 4 flickr fetcher 返回一个空数组
我正在关注斯坦福 cs193p 类(class)的 iTunesU 讲座，我现在正在做作业 4。在头文件中输入 API key 并尝试将返回的数组记录到控制台后，它显示它是一个空数组，其中没有任何内容
http - gtm-http-fetcher 修改 HTTP header
不知道这里有没有人用过google提供的gtm-http-fetcher .我特别希望修改请求中的 HTTP header 。任何帮助或示例将不胜感激。 -帕特最佳答案由于您提供了要获取的请求，因
php - Firebase 错误 : Credentials fetcher does not implement Google\Auth\UpdateMetadataInterface
请我尝试从 PHP 中的 firebase 获取数据，它给了我这个错误 Uncaught RuntimeException: Credentials fetcher does not implemen
hadoop - 在 hadoop 中处理大文件时出现 Shuffle、merger 和 fetcher 错误
我正在运行一个类似 mapreduce 的字数统计作业，处理 200 个文件，每个文件大小为 1Gb。我在一个 hadoop 集群上运行该作业，该集群包含 4 个数据节点(每个 2cpu)，内存为 8
java - Apache Nutch 2.3.1 Fetcher 给出无效 uri 异常
我已经使用 Hadoop 生态系统配置了 Apache Nutch 2.3.1。我必须获取一些阿拉伯文字网站。 Nutch 在获取时对少数 URL 给出异常(exception)。以下是一个异常示例
javascript - 在 meteor 中使用 spacejam 时出现 "fetch is not found globally and no fetcher passed"
我正在编写单元测试来检查我的 api。在我将我的 git test 分支与我的 dev 分支合并之前，一切都很好，但后来我开始遇到这个错误: App running at: http://localh

首页

博学

6Ren·AI

商城

fetcher#1 随机播放中的 Hadoop 错误