gpt4 book ai didi

java - 在 Solr 中存储 PDF

转载 作者:太空宇宙 更新时间:2023-11-04 08:05:11 25 4
gpt4 key购买 nike

我正在尝试进行设置(在我的本地环境中),以便我可以在 Solr 中存储 PDF,但我无法让它工作。现在我正在处理 Solr 提供的示例文件夹中的文件。

我没有修改 solr-3.6.0/example/conf 中的 solrconfig.xml,因为它似乎已经按照 Extracting Request Handler 中的描述进行配置。 。也就是说,它已经包含以下内容:

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />

还有这个:

<requestHandler name="/update/extract" 
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>

我使用以下命令从示例目录运行 Solr:

java -jar start.jar 

我正在尝试使用以下命令将 pdf 发送到 Solr:

java -Durl=http://localhost:8983/solr/update/extract -Dauto -jar /Applications/Solr-3.6.0/example/exampledocs/post.jar /path/to/pdf/mypdf.pdf

如果我不对/Solr-3.6.0/example/solr/conf/schema.xml 进行任何更改,我会收到消息:

FATAL: Solr returned an error #400 [doc=null] missing required field: id

如果我将 schema.xml 中 id 元素中的属性“required”的值更改为 false,我会得到:

FATAL: Solr returned an error #400 Document is missing mandatory uniqueKey field: id

我认为,如果模式中某个元素的必需属性为 false,那么我可以发送不包含该字段的文件,但显然情况并非如此。

我还尝试在发送该 pdf 的命令中添加参数 -Dparams=literal.id=mypdf1 ,但这也没有帮助。有什么想法吗?

最佳答案

我相信我的困惑是由于您需要为发送到 Solr 的文档提供一个 id,同时 Solr-3.6.0/example/solr/conf/schema.xml 中有一个 id 元素。

我相信我遇到的第一个错误是指架构中的 id 元素。第二个错误是指文档 ID。

在 ZeroPage 的帮助下,我也能够通过将文档 ID 添加到 url 而不是将其作为单独的参数传递来克服第二个错误。这个查询现在对我有用:

java -Durl=http://localhost:8983/solr/update/extract?literal.id=form1 -jar /Applications/Solr-3.6.0/example/exampledocs/post.jar /path/to/pdf/form1.pdf 

如果我们希望 Solr 索引 PDF 的完整内容,我们需要添加 uprefixfmap.content 属性:

java -Durl="http://localhost:8983/solr/update/extract?literal.id=form1&uprefix=attr_&fmap.content=attr_content&commit=true" -jar /Applications/Solr-3.6.0/example/exampledocs/post.jar /path/to/pdf/form1.pdf

关于java - 在 Solr 中存储 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12186777/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com