solr - NUTCH 1.13 获取 url 失败，出现 : org. apache.nutch.protocol.ProtocolNotFound:找不到 url=http 的协议(protocol)-6ren

solr - NUTCH 1.13 获取 url 失败，出现 : org. apache.nutch.protocol.ProtocolNotFound:找不到 url=http 的协议(protocol)

转载作者：行者123 更新时间：2023-12-04 19:30:58

fetch of httpurl failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) at org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:285)

Using queue mode : byHost fetch of httpsurl failed with: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=https at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) at org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:285)

我在使用 solr6.6.0 运行 nutch1.13 时得到了上述结果

我使用的命令是

bin/crawl -i -D solr.server.url=http://myip/solr/nutch/ urls/ crawl 2

下面是我的 nutch-site.xml 中的插件部分

  <name>plugin.includes</name>
  <value>
protocol-(http|httpclient)|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
</value>

以下是我的文件内容

    [root@localhost apache-nutch-1.13]# ls plugins
creativecommons      index-more           nutch-extensionpoints   protocol-file                 scoring-similarity         urlnormalizer-ajax
feed                 index-replace        parse-ext               protocol-ftp                  subcollection              urlnormalizer-basic
headings             index-static         parsefilter-naivebayes  protocol-htmlunit             tld                        urlnormalizer-host
index-anchor         language-identifier  parsefilter-regex       protocol-http                 urlfilter-automaton        urlnormalizer-pass
index-basic          lib-htmlunit         parse-html              protocol-httpclient           urlfilter-domain           urlnormalizer-protocol
indexer-cloudsearch  lib-http             parse-js                protocol-interactiveselenium  urlfilter-domainblacklist  urlnormalizer-querystring
indexer-dummy        lib-nekohtml         parse-metatags          protocol-selenium             urlfilter-ignoreexempt     urlnormalizer-regex
indexer-elastic      lib-regex-filter     parse-replace           publish-rabbitmq              urlfilter-prefix           urlnormalizer-slash
indexer-solr         lib-selenium         parse-swf               publish-rabitmq               urlfilter-regex
index-geoip          lib-xml              parse-tika              scoring-depth                 urlfilter-suffix
index-links          microformats-reltag  parse-zip               scoring-link                  urlfilter-validator
index-metadata       mimetype-filter      plugin                  scoring-opic                  urlmeta

我被这个问题困住了。如您所见，我已经包含了两个协议(protocol)-(http|httpclient)。但是仍然获取 url 失败。提前致谢。

较新的问题 hadoop.log

2017-09-01 14:35:07,172 INFO solr.SolrIndexWriter - SolrIndexer: deleting 1/1 documents 2017-09-01 14:35:07,321 WARN output.FileOutputCommitter - Output Path is null in cleanupJob() 2017-09-01 14:35:07,323 WARN mapred.LocalJobRunner - job_local1176811933_0001 java.lang.Exception: java.lang.IllegalStateException: Connection pool shut down at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:529) Caused by: java.lang.IllegalStateException: Connection pool shut down at org.apache.http.util.Asserts.check(Asserts.java:34) at org.apache.http.pool.AbstractConnPool.lease(AbstractConnPool.java:169) at org.apache.http.pool.AbstractConnPool.lease(AbstractConnPool.java:202) at org.apache.http.impl.conn.PoolingClientConnectionManager.requestConnection(PoolingClientConnectionManager.java:184) at org.apache.http.impl.client.DefaultRequestDirector.execute(DefaultRequestDirector.java:415) at org.apache.http.impl.client.AbstractHttpClient.doExecute(AbstractHttpClient.java:863) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:106) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:57) at org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod(HttpSolrClient.java:481) at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:240) at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:229) at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149) at org.apache.solr.client.solrj.SolrClient.commit(SolrClient.java:482) at org.apache.solr.client.solrj.SolrClient.commit(SolrClient.java:463) at org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:191) at org.apache.nutch.indexwriter.solr.SolrIndexWriter.close(SolrIndexWriter.java:179) at org.apache.nutch.indexer.IndexWriters.close(IndexWriters.java:117) at org.apache.nutch.indexer.CleaningJob$DeleterReducer.close(CleaningJob.java:122) at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:459) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392) at org.apache.hadoop.mapred.LocalJobRunner$Job$ReduceTaskRunnable.run(LocalJobRunner.java:319) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) 2017-09-01 14:35:07,679 ERROR indexer.CleaningJob - CleaningJob: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865) at org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:174) at org.apache.nutch.indexer.CleaningJob.run(CleaningJob.java:197) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.indexer.CleaningJob.main(CleaningJob.java:208)

最佳答案

我以某种方式解决了这个问题。我认为 nutch-site.xml 中的空间为其他来到这里的人造成了新的 plugin.includes 部分的问题。

      <name>plugin.includes</name>
  <value>protocol-http|protocol-httpclient|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

关于solr - NUTCH 1.13 获取 url 失败，出现 : org. apache.nutch.protocol.ProtocolNotFound:找不到 url=http 的协议(protocol)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45983592/

文章推荐： nginx - 在 Centos 6.8 上升级 nginx

文章推荐： apache - Centos 7 : Multiple virtual host is not working

文章推荐： php - 在centos上的cron作业中执行PHP

protocols - 无状态协议(protocol)是否被认为比有状态协议(protocol)更好用？
我可以看到有状态的协议(protocol)可以减少像 cookie 这样的“模拟状态”。但是测试变得更加难以确保您的实现正确并重新连接，并且 session 继续可能很难处理。始终使用无状态协议(
protocols - 通用二进制协议(protocol)
我正在尝试为我的下一个分布式应用程序找到合适的协议(protocol)中间件。在过去的几天里，我找到了几个规范，想知道我是否错过了一个重要的规范？它应该是二进制协议(protocol)，支持 RPC，
protocols - 我在哪里可以找到自动柜员机使用的交易协议(protocol)？
我正在做一个研究生院软件工程项目，我正在寻找管理 ATM 和银行网络之间通信的协议(protocol)。我已经在谷歌上搜索了很长一段时间，虽然我找到了各种有关 ATM 的有趣信息，但我惊讶地发现似乎
protocol-buffers - 如何使用 Protocol Buffers 构建第三方串行通信协议(protocol)？
我正在开发一个 ECG 模块，它以字节为单位给出数据。有一个关于它的协议(protocol)文档解释了如何构建从模块中出来的数据包。我想解码该数据。我很困惑 Protocol Buffer 是否会对此
network-protocols - 面向消息的协议(protocol)和面向流的协议(protocol)之间的区别
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 3年前关闭。 Improve this qu
protocols - 理解ZMODEM协议(protocol)
我需要在我的程序中包含基本的文件发送和文件接收例程，并且需要通过 ZMODEM 协议(protocol)。问题是我无法理解规范。供引用，here is the specification . 规范没
protocols - 什么是联合协议(protocol)？
我最近听到这个术语来描述 Google 的新环聊协议(protocol)和 Whisper System 的新 encrypted texting app . The new TextSecure p
ios7 - 内容协议(protocol)。协议(protocol)不可转换为协议(protocol)
如何检查某个对象是否符合协议(protocol)？我试过这种方式，但出现错误: if lCell.conformsToProtocol(ContentProtocol) { } 最佳
ios - 协议(protocol)类型不能符合协议(protocol)，因为只有具体类型才能符合协议(protocol)
在应用程序中，我们有两种类型的贴纸，字符串和位图。每个贴纸包都可以包含两种类型。这就是我声明模型的方式: // Mark: - Models protocol Sticker: Codable { }
swift - 无法使用另一个符合协议(protocol)的协议(protocol)来符合协议(protocol)
这个问题在这里已经有了答案: Why can't a get-only property requirement in a protocol be satisfied by a property w
swift - 不支持使用 'Protocol' 作为符合协议(protocol) 'Protocol' 的具体类型
我有以下快速代码: protocol Animal { var name: String { get } } struct Bird: Animal { var name: String
iphone - 协议(protocol)中的协议(protocol)是否可以被视为包含它们采用的协议(protocol)？
我在遵循继承树的几个类中分配协议(protocol)。像这样: 头等舱 @protocol LevelOne - (void) functionA @end @interface BaseClass
fix-protocol - OUCH 协议(protocol)和 FIX 协议(protocol)有什么区别。两种协议(protocol)的消息看起来非常相似
我们之前使用的是 fix，但客户说使用 OUCH 进行交易，因为这样速度更快。我在互联网上查了一下，消息看起来很相似。它如何获得速度优势。请给我一些示例消息最佳答案基本上，FIX 消息以文本格式传
swift - 如何使协议(protocol)关联类型需要协议(protocol)继承而不是协议(protocol)采用
在我的 swift 项目中，我有一个使用协议(protocol)继承的案例，如下所示 protocol A : class{ } protocol B : A{ } 接下来我要实现的目标是声明另一个具
protocols - OPC UA 协议(protocol)与 MQTT 协议(protocol)
我想根据这两种协议(protocol)的一般特征(例如开销(数据包)、安全性、信息建模和可靠性)来比较 OPC UA 和 MQTT。我在哪里可以找到每个协议(protocol)的开销和其他特性的一些示
ios - 如何使一个协议(protocol)具有另一个协议(protocol)的属性，同时确保可以限制符合第一个协议(protocol)的类
本质上，我的最终目标是拥有一个协议(protocol) Log，它强制所有符合它的对象都有一个符合另一个协议(protocol) [LogEvent] 的对象数组. 但是，符合Log的类需要有特定类型
ios - 如何根据实现该协议(protocol)的两个实例的身份为协议(protocol)实现 Equatable 协议(protocol)？
我正在尝试为基于左操作数和右操作数标识的协议(protocol)实现 Equatable 协议(protocol)。换句话说:我如何为一个协议(protocol)实现 Equatable 协议(pro
protocols - smb协议(protocol)漏洞解决方案
问题不在于编程。我正在使用一台旧机器，微软停止了这些机器的补丁。有没有人针对攻击者已知的使用端口 445 的 SMB 协议(protocol)漏洞的解决方案？任何棘手的解决方案？换句话说，我想
protocols - Protocol Buffer 日志记录
在我们的业务中，我们需要记录到达我们服务器的每个请求/响应。目前，我们使用 xml 作为标准实现。如果我们需要调试/跟踪某些错误，则使用日志文件。如果我们切换到 Protocol Buffer
protocols - 协议(protocol)定义语言
你推荐什么协议(protocol)定义？我评估了 Google 的 Protocol Buffer ，但它不允许我控制正在构建的数据包中字段的位置。我认为 Thrift 也是如此。我的要求是: 指定

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

solr - NUTCH 1.13 获取 url 失败，出现 : org. apache.nutch.protocol.ProtocolNotFound:找不到 url=http 的协议(protocol)