- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对 nutch 很陌生,所以请多多包涵。在我的一次测试爬网期间,我遇到了 IOException。我正在使用 nutch 1.6 和 hadoop 0.20.2 (在设置文件访问权限时选择此版本的 Windows 兼容性)。
我正在通过 Eclipse 运行 nutch。我按照本指南从 SVN 导入 nutch:http://wiki.apache.org/nutch/RunNutchInEclipse
我的爬虫代码来自这个网站:http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/
这是系统异常日志:
未设置 solrUrl,将跳过索引...
爬行开始于:爬行
rootUrlDir = 网址
线程 = 1
深度 = 1
solrUrl=null
顶部 N = 1
喷油器:开始于2013-03-31 23:51:11
注入(inject)器: crawlDb: crawl/crawldb
注入(inject)器:urlDir:urls
Injector:将注入(inject)的 url 转换为爬取数据库条目。
java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:
at org.apache.nutch.crawl.Crawl.run(Crawl.java:
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)
Path crawlDb = new Path(dir + "/crawldb");
Path linkDb = new Path(dir + "/linkdb");
Path segments = new Path(dir + "/segments");
Path indexes = new Path(dir + "/indexes");
Path index = new Path(dir + "/index");
最佳答案
当我尝试在 Windows 上运行 nutch 1.6 时,我并没有取得太大的成功。
我下载了已知在 Windows 中运行的最新版本(nutch 1.2)并且没有任何问题。
关于eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15731486/
我正在尝试使用jobId从Hadoop 2.6.0集群中获取当前正在运行的作业。 我输入了当前正在运行的Hadoop作业的jobId。我想使用RunningJob对象获取有关Hadoop作业的详细信息
我找不到与MRv2等效的JobClient(Java,MRv1)。我正在尝试读取正在运行的作业的MR作业状态,计数器等。我必须从他相信的资源管理器中获取信息(因为“历史记录”服务器在作业结束前将没有信
调用JobClient类的getQueues()方法似乎只返回“默认”队列,即使Fair Scheduler创建了其他池并正在运行作业。我想知道“池”和“队列”之间是否存在概念上的不匹配,但是为非默认
我在Ubuntu中使用标准的单独mapreduce作业进行了测试。 但是出现以下错误,然后失败。 conf.myconf是从conf.empty副本创建的 ubuntu@ip-172-31-20-2:
我对 nutch 很陌生,所以请多多包涵。在我的一次测试爬网期间,我遇到了 IOException。我正在使用 nutch 1.6 和 hadoop 0.20.2 (在设置文件访问权限时选择此版本的
我的代码是 import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.a
(我现在已经通过添加本文末尾指定的依赖项解决了这个问题,但想知道是否有更好的选择或者我是否遗漏了一些重要的东西?) 当尝试运行 mapreduce 作业时,行 JobClient.runJob(con
我在 Windows 上运行来自 Cygwin 的“Mahout in Action”一书中的“从文档生成向量”样本。Hadoop 仅在本地计算机上启动。 下面是我的运行命令: $ bin/mahou
我是一名优秀的程序员,十分优秀!