eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException-6ren

eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException

转载作者：行者123 更新时间：2023-12-02 21:55:00

26

4

我对 nutch 很陌生，所以请多多包涵。在我的一次测试爬网期间，我遇到了 IOException。我正在使用 nutch 1.6 和 hadoop 0.20.2 (在设置文件访问权限时选择此版本的 Windows 兼容性)。

我正在通过 Eclipse 运行 nutch。我按照本指南从 SVN 导入 nutch:http://wiki.apache.org/nutch/RunNutchInEclipse

我的爬虫代码来自这个网站:http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/

这是系统异常日志:

未设置 solrUrl，将跳过索引...
爬行开始于:爬行
rootUrlDir = 网址
线程 = 1
深度 = 1
solrUrl=null
顶部 N = 1
喷油器:开始于2013-03-31 23:51:11
注入(inject)器: crawlDb: crawl/crawldb
注入(inject)器:urlDir:urls
Injector:将注入(inject)的 url 转换为爬取数据库条目。

java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
    at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)

我在 Crawl.java 中看到这些调用涉及 #Injector.inject() 之前的路径

Path crawlDb = new Path(dir + "/crawldb"); 
Path linkDb = new Path(dir + "/linkdb"); 
Path segments = new Path(dir + "/segments"); 
Path indexes = new Path(dir + "/indexes"); 
Path index = new Path(dir + "/index");

目前我的 Eclipse 项目不包括文件夹 crawldb、linkdb、segments ......我认为我的问题是我没有设置所有必要的文件进行爬行。我只设置了 nutch-site.xml、regex-urlfilter.txt 和 urls/seed.txt .关于此事的任何建议都会有很大帮助。谢谢!

最佳答案

当我尝试在 Windows 上运行 nutch 1.6 时，我并没有取得太大的成功。
我下载了已知在 Windows 中运行的最新版本(nutch 1.2)并且没有任何问题。

关于eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15731486/

26

4

0

文章推荐： python - pig udf中python代码的正确输入/输出？

文章推荐： sql - 如何使用Hive QL生成序列号

文章推荐： hadoop - 输入输出参数错误Hadoop

文章推荐： hadoop - 具有多个文件的WholeFileInputFormat输入

java - Hadoop JobClient getJob方法执行时间太长
我正在尝试使用jobId从Hadoop 2.6.0集群中获取当前正在运行的作业。我输入了当前正在运行的Hadoop作业的jobId。我想使用RunningJob对象获取有关Hadoop作业的详细信息
hadoop - 等效YARN MRv2 JobClient
我找不到与MRv2等效的JobClient(Java，MRv1)。我正在尝试读取正在运行的作业的MR作业状态，计数器等。我必须从他相信的资源管理器中获取信息(因为“历史记录”服务器在作业结束前将没有信
hadoop - Hadoop JobClient.getQueues()不显示公平调度程序池
调用JobClient类的getQueues()方法似乎只返回“默认”队列，即使Fair Scheduler创建了其他池并正在运行作业。我想知道“池”和“队列”之间是否存在概念上的不匹配，但是为非默认
java - apache.hadoop.mapred.JobClient.runJob失败
我在Ubuntu中使用标准的单独mapreduce作业进行了测试。但是出现以下错误，然后失败。 conf.myconf是从conf.empty副本创建的 ubuntu@ip-172-31-20-2:
eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException
我对 nutch 很陌生，所以请多多包涵。在我的一次测试爬网期间，我遇到了 IOException。我正在使用 nutch 1.6 和 hadoop 0.20.2 (在设置文件访问权限时选择此版本的
hadoop - WARN mapred.JobClient : No job jar file set. 可能找不到用户类
我的代码是 import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.a
java - Hadoop JobClient.runJob : Cannot initialize cluster - Misleading error message(? ) 和建议的解决方案
(我现在已经通过添加本文末尾指定的依赖项解决了这个问题，但想知道是否有更好的选择或者我是否遗漏了一些重要的东西？) 当尝试运行 mapreduce 作业时，行 JobClient.runJob(con
windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时
我在 Windows 上运行来自 Cygwin 的“Mahout in Action”一书中的“从文档生成向量”样本。Hadoop 仅在本地计算机上启动。下面是我的运行命令: $ bin/mahou

首页

博学

6Ren·AI

商城

eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException