gpt4 book ai didi

solr - 如何指示 ExtractingRequestHandler 仅解析文档的主体?

转载 作者:行者123 更新时间:2023-12-02 05:44:55 25 4
gpt4 key购买 nike

在构造我发送给它的文档的“内容”时,如何指示提取请求处理程序忽略元数据/ header 等?

例如,我创建了一个 MS Word 文档,其中只包含单词“SEARCHWORD”,没有其他任何内容。但是,当我将此文档发送到我的 solr 索引时,其内容将映射到我的“正文”字段,如下所示:

<str name="body">
Last-Printed 2009-02-05T15:02:00Z Revision-Number 22 Comments stream_source_info
myfile Last-Author Inigo Montoya Template Normal.dotm Page-Count 1 subject Application-Name
Microsoft Macintosh Word Author Jesus Baggins Word-Count 2 xmpTPg:NPages 1 Edit-Time
108600000000 Creation-Date 2008-11-05T20:19:00Z stream_content_type application/octet-stream
Character Count 14 stream_size 31232 stream_name /Applications/MAMP/tmp/php/phpHCIg7y
Some Company Content-Type application/msword Keywords Last-Save-Date
2012-05-01T18:55:00Z SEARCHWORD
</str>

我只需要文档的正文,在本例中是“SEARCHWORD”一词。

为了进一步引用,这是我的提取处理程序:

 <requestHandler name="/update/extract" 
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<!-- All the main content goes into "text"... if you need to return
the extracted text or do highlighting, use a stored field. -->
<str name="fmap.content">body</str>
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
</lst>
</requestHandler>

最佳答案

solr-user 邮件列表中的优秀人员深入了解了此事。事实证明,字段名称“meta”是一个特例:ExtractingRH 将所有元数据复制到该字段。就我而言,由于我自己的 ERH 中的 fmap.contents 映射,我也获得了内容。我将我的“元”字段重命名为其他内容,现在它只接收文档的内容。

目前 Solr wiki 中没有记录此行为。我希望这可以帮助其他人,他们可能在他们的模式中有一个名为“meta”的字段,他们正在将文档内容提取到该字段(我知道这不太可能)。

关于solr - 如何指示 ExtractingRequestHandler 仅解析文档的主体?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10415645/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com