apache - Nutch - 作业失败 - 错误 mapred.FileOutputCommitter

apache - Nutch - 作业失败 - 错误 mapred.FileOutputCommitter - Mkdirs 无法创建文件

转载作者：行者123 更新时间：2023-12-03 18:53:08

24

4

我正在尝试按照 Nutch tutorial 上的简单步骤进行操作.这是我第一次使用 Nutch。

一切顺利，直到我执行以下命令:

bin/nutch crawl bin/urls -dir crawl -depth 3 -topN 5 -threads 1

这给了我以下错误

    log4j:ERROR setFile(null,true) call failed
java.io.FileNotFoundException: /usr/local/nutch/framework/apache-nutch-1.6/logs/hadoop.log (No such file or directory)
    at java.io.FileOutputStream.open(Native Method)
    at java.io.FileOutputStream.<init>(FileOutputStream.java:212)
    at java.io.FileOutputStream.<init>(FileOutputStream.java:136)
    at org.apache.log4j.FileAppender.setFile(FileAppender.java:290)
    at org.apache.log4j.FileAppender.activateOptions(FileAppender.java:164)
    at org.apache.log4j.DailyRollingFileAppender.activateOptions(DailyRollingFileAppender.java:216)
    at org.apache.log4j.config.PropertySetter.activate(PropertySetter.java:257)
    at org.apache.log4j.config.PropertySetter.setProperties(PropertySetter.java:133)
    at org.apache.log4j.config.PropertySetter.setProperties(PropertySetter.java:97)
    at org.apache.log4j.PropertyConfigurator.parseAppender(PropertyConfigurator.java:689)
    at org.apache.log4j.PropertyConfigurator.parseCategory(PropertyConfigurator.java:647)
    at org.apache.log4j.PropertyConfigurator.configureRootCategory(PropertyConfigurator.java:544)
    at org.apache.log4j.PropertyConfigurator.doConfigure(PropertyConfigurator.java:440)
    at org.apache.log4j.PropertyConfigurator.doConfigure(PropertyConfigurator.java:476)
    at org.apache.log4j.helpers.OptionConverter.selectAndConfigure(OptionConverter.java:471)
    at org.apache.log4j.LogManager.<clinit>(LogManager.java:125)
    at org.slf4j.impl.Log4jLoggerFactory.getLogger(Log4jLoggerFactory.java:73)
    at org.slf4j.LoggerFactory.getLogger(LoggerFactory.java:242)
    at org.slf4j.LoggerFactory.getLogger(LoggerFactory.java:254)
    at org.apache.nutch.crawl.Crawl.<clinit>(Crawl.java:43)
log4j:ERROR Either File or DatePattern options are not set for appender [DRFA].
solrUrl is not set, indexing will be skipped...
crawl started in: crawl
rootUrlDir = bin/urls
threads = 1
depth = 3
solrUrl=null
topN = 5
Injector: starting at 2013-04-02 19:08:03
Injector: crawlDb: crawl/crawldb
Injector: urlDir: bin/urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 0
Injector: total number of urls injected after normalization and filtering: 1
Injector: Merging injected urls into crawl db.
Exception in thread "main" java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265)
    at org.apache.nutch.crawl.Injector.inject(Injector.java:296)
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我的 bin 目录有:

纳奇
抓取
urls/seeds.txt

不知道问题出在哪里。

hadoop.log 有以下错误:

2013-04-03 17:33:18,370 ERROR mapred.FileOutputCommitter - Mkdirs failed to create file:/usr/local/nutch/framework/apache-nutch-1.6/bin/crawl/crawldb/1971189408/_temporary

2013-04-03 17:33:21,394 WARN  mapred.LocalJobRunner - job_local_0002

java.io.IOException: The temporary job-output directory file:/usr/local/nutch/framework/apache-nutch-1.6/bin/crawl/crawldb/1971189408/_temporary doesn't exist!

最佳答案

问题出在 -dir crawl 上。

您需要提及正确的目录路径/名称。

关于apache - Nutch - 作业失败 - 错误 mapred.FileOutputCommitter - Mkdirs 无法创建文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15778060/

24

4

0

文章推荐： delphi - “元素数(256)与声明(65536)不同”从D2007迁移到XE8

文章推荐： delphi - 下划线在Delphi4中是什么意思

hadoop - 使用 mapr-setup 脚本安装 mapr
安装 MapR 时遇到问题安装程序。它无法从存储库中读取。请检查以下链接以了解详细错误。让我知道如何克服这一点。 http://justpaste.it/q6vl 最佳答案您可以尝试清理 repo
hadoop mapred 作业 - 初始化尝试 mapred 任务时出错
我不小心删除了 hadoop.tmp.dir，在我的例子中是/tmp/{user.name}/*。现在每次当我从 CLI 运行配置单元查询时，mapred 作业将在任务尝试时失败，如下所示: Erro
linux - 无法连接 Mapr-FS 上的 Mapr-表？
大家好，我在 Centos 6.4, 64 位上使用 Mapr M7 版本。我正在 MapR 上测试 MapR-tables，但单击 MapR-tables --> Error Home direc
hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir？
我没有对 mapred-site.xml 中 mapred.local.dir 指定的目录的写入权限(也没有对 mapred-site.xml 的写入权限)有没有一种方法可以在每个 session 基
java - mapred-site.xml 未覆盖 mapred-default.xml 中的参数
我正在使用 Hadoop 版本 0.20.2(Cloudera 发行版 cdh3u6)并发现问题。据我了解，如果我在 /etc/hadoop/conf/mapred-site.xml 中设置一个值，它
hadoop - Streamsets Mapr FS 起点/终点。 KerberosPrincipal 异常(使用 hadoop 模拟(在 mapr 6.0 中))
我正在尝试从 mapr fs origin 进行简单的数据移动到 mapr fs destination (这不是我的用例，只是为了测试目的做这个简单的 Action )。尝试 validate 时这
hadoop - MapR DB表的物理数据位置
我在MapR DB中创建了一个表，并使用hbase shell将一些原始数据加载到该表中。我在哪里可以在MapR文件系统上找到这些数据？像 hive 数据一样存储在仓库目录中，MapR DB如何工作？
hadoop - MapR 分发中使用的容器架构是什么？
MapR 自带了一种不同于HDFS 方式的新架构(Container Architecture)。有什么区别？这如何存储数据？有什么优点和缺点？最佳答案参见 https://www.youtube
hadoop - MAPR - 文件读写过程
我无法找到向我解释元数据如何在 MAPR(文件元数据)中分布的特定链接。当我查看 cloudera/hortonworks/apache hadoop 时，我知道元数据存储在 namenode 的内存
rest - MapR-Rest API列表命令未提供正确的输出
用于MapR DB的MapR REST API似乎无法正常工作。我只是尝试将列系列的列表命令用作过滤器，但它没有给我适当的输出，但它与maprcli选项完美配合。这是我所做的操作列表。使用maprc
hadoop - 安装 Mapr 时出错
嗨，我正在尝试在 ubuntu 12.04 上精确安装 MapR，但面临一些问题。我按照下面的链接进行安装 http://doc.mapr.com/display/MapR/Quick+Install
hadoop - 在 MapR 集群之间切换
我在 mapr-clusters.conf 中指定了两个集群 cluster1 secure=true cldb1:7222 cldb2:7222 cldb3:7222 cluster2 secure
Hadoop 管道和新的 mapred 包
是否正在进行将 Hadoop 管道从 mapred 移植到 mapreduce 包的工作？谢谢，梅格最佳答案 JIRA 问题 MAPREDUCE-1362解决了将管道升级到新的 mapreduce
hadoop - 什么是 Mapr Warden？
我正在玩 Mapr Sandbox，我不明白 Mapr Warden 应用程序的作用是什么。 Mapr 网站包含对配置文件的引用，但没有程序本身的描述。最佳答案 Warden 是一个轻型 Java
hadoop - Hue 不想为用户创建主目录 - MapR
我使用 MapR，我想从 LDAP 创建用户。我可以创建我的用户，但 Hue 不想创建关联文件夹，我收到此消息:“获取当前用户的用户信息时出错，***(错误 500)” 我尝试使用本地用户，但这是同
hadoop - 如何杀死由配置单元启动的 mapred 作业？
我现在使用 CDH 5.1。它通过 YARN 启动正常的 Hadoop 作业，但 hive 仍然可以使用 mapred。有时一个大查询会挂起很长时间，我想杀死它。我可以通过 JobTracker W
org.apache.hadoop.mapred.YARNRunner类的使用及代码示例
本文整理了Java中org.apache.hadoop.mapred.YARNRunner类的一些代码示例，展示了YARNRunner类的具体用法。这些代码示例主要来源于Github/Stackove
org.apache.hadoop.mapred.YarnChild类的使用及代码示例
本文整理了Java中org.apache.hadoop.mapred.YarnChild类的一些代码示例，展示了YarnChild类的具体用法。这些代码示例主要来源于Github/Stackoverf
org.apache.hadoop.mapred.YarnOutputFiles类的使用及代码示例
本文整理了Java中org.apache.hadoop.mapred.YarnOutputFiles类的一些代码示例，展示了YarnOutputFiles类的具体用法。这些代码示例主要来源于Githu
org.apache.hadoop.mapred.YarnClientProtocolProvider类的使用及代码示例
本文整理了Java中org.apache.hadoop.mapred.YarnClientProtocolProvider类的一些代码示例，展示了YarnClientProtocolProvider类

首页

博学

6Ren·AI

商城

apache - Nutch - 作业失败 - 错误 mapred.FileOutputCommitter - Mkdirs 无法创建文件