gpt4 book ai didi

datetime - nutch-solr:将网页元数据中的日期格式化为正确的Solr格式

转载 作者:行者123 更新时间:2023-12-03 23:15:50 24 4
gpt4 key购买 nike

我目前正在配置nutch和solr来索引网页及其元数据。
有一些元数据标签包含格式为yyyy-mm-dd的日期,因此它们错过了所需的时间格式扩展名才能用作solr.DateField或solr.TrieDateField。
我想在日期字段上使用日期范围,如果不采用以下一种格式,就无法使用,对吗?

目前,我的日期以文本形式包含在架构中:

<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
...
<field name="Date Modified" type="string" stored="true" indexed="true" multiValued="true"/>


每当我将其用于字段定义时...

<fieldType name="date" class="solr.TrieDateField" omitNorms="true" positionIncrementGap="0"/>
<field name="Date Modified" type="date" stored="true" indexed="true" multiValued="true"/>


...我收到此错误消息:

2012-05-02 23:45:58,370 WARN  mapred.LocalJobRunner - job_local_0029
org.apache.solr.common.SolrException: ERROR: [doc=http://ec.gc.ca/] Error adding field 'Date Modified'='2011-12-05'

ERROR: [doc=http://ec.gc.ca/] Error adding field 'Date Modified'='2011-12-05'

request: http://localhost:8983/solr/update?wt=javabin&version=2
at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:430)
at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java :244)
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.j ava:105)
at org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:49)
at org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:93)
at org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2012-05-02 23:45:58,966 ERROR solr.SolrIndexer - java.io.IOException: Job failed!


我浏览了不同的论坛,但没有找到有效的解决方案。我可能错过了有关数据导入处理的信息。
我是否需要更改螺母配置中的内容才能以正确的格式获取日期字段?

非常感谢!

祝一切顺利

最佳答案

看看DateField docs。它包含日期正确格式的一些示例。这应该没问题:2011-12-05T00:00:00Z。将日期发送给Solr之前,不要忘记将日期转换为UTC。

但是,您的问题更多是如何告诉nutch在将该字段转换为正确格式的日期作为索引。我看了一下源代码,但还没有找到开箱即用的方法。我猜您应该编写一些代码,可能扩展您正在使用的插件,甚至可以将其回馈给项目。

关于datetime - nutch-solr:将网页元数据中的日期格式化为正确的Solr格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10445095/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com