gpt4 book ai didi

java - 安装 Nutch 1.3 和 Solr 3.1

转载 作者:行者123 更新时间:2023-11-29 09:18:41 24 4
gpt4 key购买 nike

我正在尝试让 nutch 1.3 和 solr 3.1 一起工作。

注意:我使用的是 Windows 并安装了 Cygwin。

我已经安装了 nutch 并进行了基本的爬行(从运行时/本地运行)

bin/nutch crawl urls -dir crawl -depth 3

这似乎是基于日志 (crawl.log) ... LinkDb:完成于2011-10-24 14:22:47,经过:00:00:02 抓取完成:抓取

我已经安装了 solr 并使用 localhost:8983/solr/admin 验证了安装

我将 nutch schema.xml 文件复制到 example\solr\conf 文件夹中

当我运行以下命令时

bin/nutch solrindex http://localhost:8983/solr crawl/crawldb crawl/linkdb crawl/segments/*

我收到以下错误 (hadoop.log)

2011-10-24 15:39:26,467 WARN  mapred.LocalJobRunner - job_local_0001
org.apache.solr.common.SolrException: ERROR:unknown field 'content'

ERROR:unknown field 'content'
request: http://localhost:8983/solr/update?wt=javabin&version=2
...
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!

我错过了什么?

最佳答案

schema.xml 中似乎缺少内容字段定义。

例如

<field name="content" type="text" stored="false" indexed="true"/>

示例 schema.xml @ http://svn.apache.org/viewvc/nutch/branches/branch-1.3/conf/schema.xml?view=markup似乎有它。您可能需要检查复制过来的 schema.xml。

关于java - 安装 Nutch 1.3 和 Solr 3.1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7881202/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com